Spider软件的设计与实现
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
多线程网络爬虫程序是从指定的Web页面中按照深度优先算法进行解析、搜索,并把搜索到的每条URL进行抓取、保存并且以URL为新的入口在互联网上进行不断的爬行的自动执行后台程序。[计算机毕业网-免费计算机毕业设计|计算机毕业论文|计算机硕士论文|计算机网络毕业设计|计算机专业毕业设计|计算机硕士论文|电大毕业论文|开题报告|www.think58.com].97541012012-3-21
网络爬虫主要应用socket套接字技术、正则表达式、HTTP协议、windows网络编程技术等相关技术,以C++语言作为实现语言,并在VC6.0下调试通过。
在网络爬虫的设计与实现的章节中除了详细的阐述技术核心外还结合了多线程网络爬虫的实现代码来说明,易于理解。本网络爬虫是一个能够在后台运行的以配置文件来作为初始URL,以深度优先算法向下爬行,保存目标URL的网络程序。
目录 [资料来源:http://THINK58.com]
绪 论 4
1.1 课题背景 4
1.2课题目的及意义 5
1.3搜索引擎的发展趋势 6
1.4本文的主要研究内容 7
第2章 spider及相关技术介绍 8
2.1 spider概念 8
2.2 spider原理 9
2.3 socket套接 9
2.3.1什么是SOCKET套接字 9
2.3.2 SOCKET各函数分析 10
第三章 网络爬虫分析和概要设计 14
3.1 网络爬虫模型分析 14
3.2 网络爬虫的搜索策略分析与设计 14
3.3 本文的设计思路及采用的方法 16
3.3.1 主要完成的功能分解 17
3.3.2 业务流程图 18
3.3.3 深度优先算法 18
第四章 系统实现 19
4.1系统的主界面 19
4.2 路径设置 19
4.3 目标地址设置 19
4.4 过滤器设置 20
4.5 页面抓取效果 20
结 论 22
致 谢 23
参考文献 24
4.3 目标地址设置
当我们抓取网页到本地后,我们要进行相应的本地存储,对应的存储路径设置以及一些参数的设置,页面如下图4-3: think58.com [来源:http://www.think58.com]