优秀的毕业设计论文网
计算机 JAVA 电子信息 单片机 机械机电 模具 土木工程 建筑结构 论文
热门搜索词:网络 ASP.NET 汽车 电气 数控 PLC

网络检索技术研究

以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
  
资料介绍:
摘要: 信息社会已经来临,Internet上的信息之多,使用户查找自己所需的资料成为一大难题,搜索引擎的出现很好的解决了这个问题。本文描述了搜索引擎发展的历史,比较了各类搜索引擎的优缺点,深入研究Google的主要算法PageRank。通过了解显现了搜索引擎各自的优缺点,有速度快的,有搜索详细的,有高级方面搜索功能的。如何把各个搜索引擎的关键技术凝聚起来,聚集各个搜索引擎的优点,使搜索引擎的功能更全面真正做到对信息的搜索正确无误,已成为网络检索技术研究、开发的一个新的方向。 关键词: 检索技术,PageRank, 搜索引擎, Google 3.1 搜索引擎的原理 搜索引擎源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。根据搜索引擎所采用的技术和实现的方法可分为两大类:基于SPIDER的搜索引擎和基于目录的搜索引擎。 3.1.1? 基于SPIDER的搜索引擎 基于SPIDER的搜索引擎除了需要有全文检索系统外,还要有所谓的“蜘蛛”(SPIDER)系统,也称Robot,Worm,Ants,Crawler和Index等等,即能够从因特网上自动收集网页的数据搜集系统,SPIDER会在网上各站点之间跳来跳去,利用HTML读取Web页面并沿着HTML文档中的链接在WWW上自动漫游,将搜集所得的网页内容交给索引和检索系统处理,就形成我们常见的因特网搜索引擎系统能够自动对WWW资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。SPIDER漫游需要一定的时间,数据表明:AltaVista的SPIDER每天漫游的速度是300万页,共索引5 000万个URL、1.5亿页;Excite是5 500万页;Lycos是54万页。所以SPIDER对WWW访问有一个周期,索引数据库也因此而自动周期更新。 3.1.2? 基于目录的搜索引擎 基于目录的搜索引擎的特点是所有的索引项都由人工编辑完成。一般是由网站管理员向搜索引擎提供本站点的描述,搜索引擎编辑人员根据这些描述建立数据库。如果网页发生变化,索引库的更新需要人工干预。Yahoo就属于此类搜索引擎。