自动新闻追踪系统
以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
资料介绍:
摘? 要
本文从搜索引擎的应用出发,探讨了在搜索引擎的基础上进行自动采集新闻的功能和实现方法过程, 在对自动采集新闻系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络采集页面的程序,对其运行结果做了分析。
该方法分为以下几个步骤:网页的预处理,网页中文提取,文本的表示,根据模糊匹配进行内容提取。
系统涉及了两个关键技术:一是对网页处理,二是网页内容内容匹配的处理。从搜索引擎中获取网页,对网页进行了筛选和处理;在网页中抽取特征词并进行匹配内容特征,截取有用的或者规定的新闻信息。
系统与用户的交互界面使用Dreamweaver进行设计,代码补充和编辑在MyEclipse6.5中进行,用SQL Server2000数据库存储数据,页面与数据库的交互通过JavaBean实现。
关键词: 网页内容提取,自动采集新闻
介绍:使用现成的搜索进行新闻搜索,并关注某条新闻的发展;以时间排序并进行有效的归类。能将数据(网站、网页、发布人、关键词、发布时间、新闻时间、内容等)存入数据库。
具体内容:使用百度搜索引擎输入新闻关键词, 例如“英超”将搜索到的有关内容,比如:最新的比赛信息、球队信息、球员状态等等。选择一个如“鲁尼帽子戏法曼联连扳4球4-2大逆转桑德兰”了解。能够将此新闻信息的相关数据信息(网站、网页、发布人、关键词、发布时间、新闻时间、内容)以文本的形式存入数据库(SQL)。然后能够对存入的多条新闻信息(如英超)以时间顺序排序归类,通过排序可以关注到新闻的发展。