国内学术信息信息搜索引擎设计与实现
以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
资料介绍:
摘要:随着Internet的迅速发展,互联网上的数据正在以几何数量级增加,我们已经进入了一个信息爆炸的时代。虽然传统的搜索引擎已经成为人们从庞大的互联网上获取信息的主要途径,但搜索结果的模糊性却很难满足人们对精确信息的需求,因此垂直搜索引擎应运而生。本文主要是利用抓取工具Heritrix对国内一些论文信息进行抓取,并对抓取的信息进行处理使其结构化,后将结构化信息存入My SQL Server中的数据库。最后利用java,jsp以及sevlet等技术进实现后台运行,运用tomcat进行最终页面结果显示。
关键词:垂直搜索; Heritrix; My SQL
Server; java; tomcat
?????
主要研究内容及研究方案
1、信息采集技术:
垂直搜索引擎spider和网页库的spider相比应该是更加专业,可定制化。可定向性的采集和垂直搜索范围相关的网页忽略不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页深度优先采集,在采集信息是我需要通过人工设定网址的方式进行。垂直搜索对信息的更新有着特别的要求,就是当我在spider是要确保爬的网站提供的信息足够准确,在此基础上尽量多的spider相关的网站。爬虫的过程我需要用到的工具是Heritrix。
??? 2、网页信息抽取技术:
??? 结构化信息抽取技术,将网页中的非结构化数据按照一定的需求抽取成结构化数据。有两种方式,简单的就是模板方式,另外就是对网页不依赖web结构化信息抽取方式,这两种方式可以互取长处,以最简单最有效的办法满足需求。垂直搜索引擎和通用搜索引擎最大的区别就是对网页信息结构化抽取后再结构化数据进行深度的处理,提供专业的搜索服务。所以web结构化信息抽取的技术水平是决定垂直搜索引擎质量的重要技术指标。其实web结构化信息抽取在百度、google早已经广泛应用了[7]例如,我要搜索孟凡超老师,通用搜索引擎找到的信息就会比较浅层,他可以定位到孟老师就职于哈尔滨工业大学(威海)等等简单信息,而我的垂直搜索引擎要达到的是,可以提供到更深层次网页的信息,爬虫会爬到哈工大(威海)中主页下的更深层次的教师详细信息,这样就可以更加精准、更加详细的查找到孟老师的工作经历,学术成就,论文情况等。
??? 3、简单的语法分析:
??? 简单的语法分析在搜索引擎中非常重要,可以通过简单的语法分析来改善数据的质量,低成本的获得某类信息,改善排序,寻找需要的内容。
??? 4、信息处理技术:
??? 信息处理包括的范围比较广,主要包括去重、聚类、分析……,据之前的学习了解,这需要相关的技术就非常多,待开题后需要花时间好好的去学习。
??? 5、数据挖掘:
??? 找出您的信息的关联性对于垂直搜索来说非常重要,有效,可以在这些相关性上为用户提供更细致的服务。
??? 6、分词技术:
面向搜索的分词技术,建立与我要搜索的信息相关的词库。对网上收集得到的各种格式的全文进行分词。
Normal
0
7.8 磅
0
2
false
false
false
EN-US
ZH-CN
X-NONE
/* Style Definitions */
table.MsoNormalTable
{mso-style-name:普通表格;
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-style-priority:99;
mso-style-parent:"";
mso-padding-alt:0cm 5.4pt 0cm 5.4pt;
mso-para-margin:0cm;
mso-para-margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:10.5pt;
mso-bidi-font-size:11.0pt;
font-family:"Calibri","sans-serif";
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-font-kerning:1.0pt;}
Normal
0
7.8 磅
0
2
false
false
false
EN-US
ZH-CN
X-NONE
/* Style Definitions */
table.MsoNormalTable
{mso-style-name:普通表格;
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-style-priority:99;
mso-style-parent:"";
mso-padding-alt:0cm 5.4pt 0cm 5.4pt;
mso-para-margin:0cm;
mso-para-margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:10.5pt;
mso-bidi-font-size:11.0pt;
font-family:"Calibri","sans-serif";
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-font-kerning:1.0pt;}