网站数据采集与分析系统设计
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
网站数据采集与分析系统设计(任务书,开题报告,论文11000字)
摘 要
面对海量信息世界,越来越多的信息和数据可以从互联网上获得,因此,对大量数据的分析、采集以及深度挖掘都能产生不可估量的商业机会。本设计通过JAVA语言实现了从网站数据采集到数据存储并归类汇总的过程。本文阐述了系统实现中的网页信息解析、数据存储、以及对采集的数据进行初步处理并形成直观的分析图表的一系列问题。
网络数据采集通常与信息处理有关,本次课题通过统计、分析、集中处理的方法来实现目标。其中,在网页信息提取中所采用的技术为“网络爬虫”, 网络爬虫是专门用来检索信息的“机器人”,也是一种信息采集器,能在短时间内不间断地执行某项任务。而将数据存储的地方为数据库,本次设计采用的是MySQL数据库,它具备数据共享、数据独立、数据集中、数据安全、数据一致等功能。
本设计实现的网站数据采集与分析系统能对指定的网站进行数据采集与分析,并在网站内容建设、报社媒体资讯获取、企业竞争情报分析等领域得到广泛的应用。这种信息系统也能大大降低政府部门以及大多数企业在信息建设过程中的人工成本。
关键词:数据采集 数据分析 JAVA 网络爬虫 [资料来源:THINK58.com]
The network data collection and analysis system design
Abstract
Faced with huge amounts of information in the world and more and more information and data are available on the Internet at the same time, it is also likely to produce immeasurable business opportunities to analysis, collection and depth of mining a large number of data. In this article, the JAVA realized the process of implementation from site data acquisition to data storage and classified summary. This article expounds the system implementation of web information, data storage, and the collected data are preliminary processing and forming intuitive analysis chart of a series of problems.
Network data collection is often associated with computer science, this topic through statistics, online analysis, and focus on methods to achieve the goal. Among them, in which used in web information extraction technology for "web crawler", web crawler is specially used to retrieve information "robot", it is also a kind of information collector, it can continuously in a short period of time to perform a task. The data is stored in a place called the database, this design uses a MySQL database, and it can realize data sharing, data independence, the data set, data security, data consistent, etc. [来源:http://www.think58.com]
This website design realization of data acquisition and analysis system can directional data analysis was carried out on the specified website and fetching, and in the content construction, newspaper media information acquisition, analysis of enterprise competitive intelligence in the fields of application is very wide. This information system can also greatly reduce most government departments and enterprises in the information construction in the process of artificial cost. So, faced with huge amounts of information in the world and more and more information and data are available on the Internet at the same time, it is also likely to produce immeasurable business opportunities to analysis, collection and depth of mining a large number of data.
Key Words: Data collection; Data analysis; JAVA; Web spider
[来源:http://think58.com]
目 录
摘 要 I
ABSTRACT II
第一章 绪论 1
1.1 引言 1
1.2 研究现状 1
1.3 课题研究意义 2
1.4 本文所做的工作 2
第二章 系统分析 3
2.1 系统需求分析 3
2.2 网站数据采集体系结构 3
2.3 网站数据分析体系结构 4
3.4 各主要模块设计 5
第三章 系统设计环境及开发工具的介绍 6
3.1 编程语言的选择 6
3.1.1 Java的起源和发展 6
3.1.2 选择Java的优势 6
3.2 Eclipse简介 7
3.2.1 Eclipse的起源和发展 7
3.2.2 Eclipse的优势 7
3.3 MySQL简介 8
3.4 Tomcat简介 8
3.4.1 Tomcat的发展背景 8
3.4.2 Tomcat的优势 9
3.5 FusionCharts简介 9
第四章 网络数据采集系统的设计 11
4.1 网络数据采集的实现 11
4.1.1 网络爬虫的开发环境 11
4.1.2 网络爬虫的设计 11
4.2 数据库的连接与设计 17
4.2.1 使用环境 17
4.2.2 数据库连接 17
4.2.3 数据库的设计与实现 18
第五章 网络数据分析系统的设计 20
5.1 网站模块的设计 20
5.1.1 编写语言 20
5.1.2 网页的搭建 20
5.1.3 主页的设置 21
5.2 图表的设计 25
[资料来源:THINK58.com]
5.3 浏览器的选择 27
第六章 总结与展望 29
6.1 总结 29
6.1.1 体会和感想 29
6.1.2 遇到的问题 29
6.1.3 依然存在的问题 30
6.2 对未来的展望 30
参考文献 31
致谢 33