定制网页信息提取设计与实现
以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
资料介绍:
本文介绍了一个网页内容元素的采集的WEB系统,使用基于HTTP协议连接请求的网页内容采集与匹配、正则表达式的解决方法。该方法分为以下几个步骤:网页的预处理,网页元素提取,文本的信息的保存,数据保存后的统计和查询处理。
系统涉及了三个关键技术:一是对网页处理,二是网页内容采集与提取,三是,数据库信息的统计查询技术。从搜索的网页信息中提取数据,对网页进行了筛选和处理;在网页中数据元素的统计与保存,建立了数据库模型,使用正则表达式、字符匹配、数据计算统计等。
系统实现了一个基于页面元素为 的查找内容的抽取方法,这种方法对于中关键元素识别率接近于人类辨别能力。对于元素标记的内容能够根据模糊匹配算法是。通过对固定的HTML的元素模式框架,能够分别按关键元素的信息进行依次的提取和替换特殊符号形成文本,最后存储进行数据的查询、修改和删除、统计等功能,还包含对用户信息的修改与管理,包含对身份的验证。
系统与用户的交互界面使用Dreamweaver进行设计,代码补充和编辑在MyEclipse中进行,用SQL Server2000数据库存储数据,页面与数据库的交互通过JavaBean实现。
关键词: 网页内容元素,模糊匹配,HTTP协议,数据库模型,数据计算统计,正则表达式
系统的实现
本文提出的基于 网页结构元素内容采集,采用关键词的解析和字符匹配、正则表达式匹配的方法。对特殊字符进行筛选和过滤,替换掉无效和重复的数据,保存有效的数据。具体设计方案如下:
(1)采用HTtp协议连接的方式,进行连接网页内容及信息地址,通过协议的相关方法获取整个页的编码信息,通过进一步的提取信息方便后期分解。
(2)网页的预处理
网页的预处理主要任务就是从起始网页的源文件中的提取所有的URL,测试其是否为有效的URL后,进一步获取网页的编码方式。
(3)网页中文提取
网页中包含的广告信息、链接到其他网页的导航信息等,都会对该网页内容检索产生干扰。因此,在对网页的内容建立索引之前,我们需要对其中的有效正文信息进行了提取。系统在对网页中文信息的提取时,实现了对常用特殊HTML符号、 标点符号、其他符号过滤,以减少干扰。
(4)解析字符匹配
元素匹配的表示根据获取网页块元素的进一步匹配,开始用字符进行通过查找位置,或者用部分模糊字符匹配找到该位置,然后进一步查找长度,截取字符块内容,把多余的无效果的替换成空的值。。
(5)正则表达式匹配
采用规定的HTML元素符号,进行运用正则表达式进行采用通配符进行模糊匹配,一般给出元素的部分符号,然后加一些*和?的通配符号,进行模糊查找,提取块字符信息,如果有特殊符号运用字符替换技术使它替换掉。
(6)通过以上提取的HTML元素的内容后赋予变量,对变量信息组合成可以被JDBC识别的SQL语句,执行JDBC的插入方法,插入数据库到SQLSERVER,但实现定义JDBC数据库连接类DATABASE,具体数据库连接公用类。
(7)通过形成SQL查询语句,查询存储的数据表元素内容,然后调用引用数据库访问层,执行查询结果,查询返回结果集合进行循环,分别循环表格中输出。关闭相关连接结果结合,关闭数据库,释放资源。
(8)统计信息,实现通过模糊匹配找到页面中的元素内容,不断循环搜索下一个,建立动态数组,分别累计进去,当搜索完毕时候。统计出累计类型及对应数组总个数据,依次进行变量累计,组合成插入SQL语句,调用数据访问层执行插入更新统计表。通过查询统计表的形式,查询所有记录,通过结果集合进行循环输出即可。