优秀的毕业设计论文网
计算机 JAVA 电子信息 单片机 机械机电 模具 土木工程 建筑结构 论文
热门搜索词:网络 ASP.NET 汽车 电气 数控 PLC

JSP064-网络爬虫(SQL数据库)

以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
  
资料介绍:

摘要:随着信息的不断膨胀,人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利,得到了极大的流行。但是随着人们需求的多样化,和对搜索结果质量的要求越来越高,通用搜索引擎在一些专门化的领域己经不能满足人们的要求,于是垂直搜索引擎就应运而生。尽管垂直搜索引擎很多技术与通用搜索引擎很类似,但是还是有很多自己独特的技术,和一些新的需要解决的问题,URL爬虫就是其中的一个重点需要解决的问题。
关键词:搜索引擎,网络爬虫,URL提取

[来源:http://think58.com]

  [资料来源:http://www.THINK58.com]

  [资料来源:www.THINK58.com]

目 录

[资料来源:http://THINK58.com]

第一章 关于web检索URL相关问题 
1.1知识背景
1.2研究意义 
1.3国内外发展概况 
1.4本章小结 
第二章 知识背景 
2.1经济可行性 
2.2技术可行性
2.3操作可行性 
2.4法律可行性 
2.5本章小结 
第三章 总体设计 
3.1系统设计原理 
3.1.1系统功能设计 配上类与类之间的 UML图
3.2数据库设计 
3.2.1数据库设计规则
3.2.2 数据库概念结构
3.2.4 数据库实体关系模型 还有实体关系图(ER图)
3.2.4 数据库逻辑结构
3.3详细设计
3.3.1 URL的提取
第四章 具体实现 系统实现
4.1系统设计原理 
4.2功能模块设计
4.3本章小结 
第五章 评价自己的毕业设计
5.1实现的目标 
5.2学到了哪些东西
5.3如果还有时间设计,今后你会添加哪些功能 
第六章 关于软件测试
6.1软件测试的目的和意义
6.2软件测试的步骤
6.3软件测试的具体实现
6.4软件测试结论 [资料来源:THINK58.com]
6.5评价
6.6本章小结
总 结 
谢 辞 
参考文献
附 录

[来源:http://www.think58.com]

 

[资料来源:THINK58.com]

功能模块 [资料来源:http://THINK58.com]

1、网络爬虫模块
网络爬虫实际上是一个基于web的程序。它从一个初始的网页集出发,遍历Internet自动的采集网络信息。当爬虫打开某个HTML页面后,它会分析HTML标记结构来获取信息,并获取指向其它页面的超级链接,然后通过既定的搜索策略选择下一个要访问的站点。从理论上讲,如果为Spider指定个适当的初始文档集和个适当的网络搜索策略,它就可以遍历整个网络。它的性能在很大程度上影响了搜索引擎站点的规模。
2、索引模块
网络爬虫爬取的网页上的信息以固定的格式获取到本地后,索引建立程序对信息进行分析,针对页面中出现的关键词建立一种利于快速查找的数据结构,即索引,以供搜索引擎使用。搜索引擎在选择索引数据结构时通常考虑两个因素:紧凑的数据结构和高效的检索能力。由于搜索引擎在建立索引的时候是面对海量的信息,因此在考虑记录大小时要具体到字节中的位,这样才能达到一种比较合理科学性的空间膨胀比。合理的数据结构将使对关键词的检索更加迅速。通常有三种索引的建立基本技术:倒排文件、后缀数组和签名文件。倒排文件在当前大多数信息获取系统中得到应用,它对于关键词的搜索非常有效。后缀数组在短语查询中具有较快的速度,但是该结构在维护上相对比较麻烦。签名文档如今已被倒排索引技术替代。

[资料来源:THINK58.com]


处理网页的过程主要包括这几部分:文档特征向量提取、网页筛选、相关度分析、文档分类和入库操作。

[资料来源:THINK58.com]

 

[来源:http://www.think58.com]