优秀的毕业设计论文网
计算机 JAVA 电子信息 单片机 机械机电 模具 土木工程 建筑结构 论文
热门搜索词:网络 ASP.NET 汽车 电气 数控 PLC

搜索引擎分词设计

以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
  
资料介绍:
摘要: 在中文搜索引擎中,中文分词的作用显而易见,其结果直接影响到搜索引擎的性能。当前的中文分词主要有三类方法:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。中文分词发展过程中遇到最大的问题是歧义识别和新词识别。中文分词的未来发展方向既要解决这类问题,使得达到较高的分词正确率,又要进行行业分词不断拓展中文分词的应用范围。本文在研究分词算法的基础上,同时设计实现了一个对搜索到的网页上的中文进行分词处理的系统。实验结果显示,本系统分词效果良好,分词算法可行,对搜索引擎的开发具有现实意义。 关键词:搜索引擎? 中文分词 字符窜匹配 1.1研究背景 随着科技的发展,互联网的时代已经到来,信息技术在发生着巨大的变化。互联网上的信息每年都在以几何级数在增长。如何在这个巨大的信息库中锁定自己需要的信息,已经成为人们越来越关注的问题。搜索引擎就是在这个背景下应运而生,并且迅速发展起来。作为中文搜索引擎的重要组成部分,中文分词的结果的好坏直接影响着搜索引擎用户的体验度。 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上个世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度、中搜等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。 1.2研究现状 当前搜索引擎的研究工作一般只在大学及科研院校中进行,例如北大,清华,中科院,北京语言大学等。但是要将科研成果转化为好的产品,还有很多工作要做。企业方面从事这方面研究的只有海量科技公司,采用“复方分词技术”,取得了一定的成果。中文分词,任重而道远。 1.3 研究意义    目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。 词语切分准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、哈工大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。  1.4本文主要工作 本文主要研究中文分词的算法,并且实现一种采用原子切分的最大匹配的方法。本文共分为五章,主要章节安排如下: 第一章? 介绍课题研究背景和意义 第二章? 介绍开发工具及开发语言 第三章? 研究搜索引擎中中文分词的一些算法 第四章? 系统的详细设计 第五章? 软件的实现