基于分类的广西旅游Web信息主动获取
以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
资料介绍:
摘要
随着计算机的广泛应用和Internet 的普及,人们所面对的信息量急剧增长。信息量的增加给人们带来方便,可同时也带来了一个信息过量的问题。面对浩如烟海、纷繁芜杂的信息,人们越来越希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或企业管理。
在现实世界中,网页是信息最重要的载体,事实上,研究表明信息有80%包含在文本文档中。面对大量无序的网页数据,为了便于工作的展开,人们经常遇到的一个问题就是,如何对网页进行分类、比较,评估文本的相关性和重要性,以及发现众多文本的模式与趋势。采用文本分类可以实现对大量网页的自动分类。网页分类是在分析文本内容的基础上将多篇文本分成一个或多个类别。本文主要介绍以HttpClient获取固定网站网页信息,利用JAVA正则表达式和字符串匹配算法,如何获得与用户输入关键词匹配的信息,并且对各个旅游网站进行进一步进行数据分析、过滤、提取,抽取,来获得用户最终需要的旅游线路信息。
当今是一个信息爆炸的时代,特别是随着Internet的飞速发展,各行业都已经在网络上找到了自己的位置,人们越来越有可能通过网络来获得最新的咨询信息,网络已成为继报纸、电视之后的第3种媒体,网络改变了我们的生活,电子信息化给人们的阅读带来了革命性的改变。我们每个人都有通过阅读获得信息的习惯,特别是一些对咨询信息需求比较紧迫的个人和企业,更加是需要每天通过大量的阅读来寻找和补充自己需要的信息。但是,网上信息之多已经大大超过来我们的每天日常的阅读能力,因此为了给人们提供辅助阅读的工具,网页分类技术的研究已经成为解决该问题的重要捷径之一。特别的是在信息检索领域网页分类和自动摘要技术的发展更是不可缺少。
人们面对浩瀚的信息海洋,从大规模文本中快速获取所需要信息的要求,日益变得迫切.但是传统的搜索引擎会返回大量的网页,这些网页内容中只有极少数对用户来说是有用的.对这些网页若是采用顺序组织的方法,用户查找到所需要的文档会花费较长的时间。
HttpClient获取固定网站网页信息,利用JAVA正则表达式和字符串匹配算法,如何获得与用户输入关键词匹配的信息,可以帮助人们从搜索引擎返回的网页内容中快速地查找到所需要的网页系统的实现可以同对输入对应的关键字,搜索广西对应的经典和路线,并通过网页的形式展现给用户。
发展现状
目前市场上有的是大量的搜索引擎,比较知名的有Google,Baidu,SouGuo,等,他们在搜索引擎这部分有着很强的功底,但是对于一些旅游的项目,我们要取得一个地区(广西)的相关的旅游信息,每个网站,每个公司都有自己的不同于其他的,而我们要有一个公共的平台来取得我们自己想要的信息,以提供我们做一个合理的选取。
课题的目的和意义
市场上现有的搜索引擎,大都是都是搜索一些相关的信息,没有能够精确到诸如景点和线路相关的产品,而我们的项目就是在这样的情况下产生的,旨在专注于做这样的产品的开发,在WEB不断发展的今天,这样的一个需求更加显得重要!所以本课题和项目有着比较深远的意义和研究价值。
下一篇:校园新闻发布系统的设计与实现