优秀的毕业设计论文网
计算机 JAVA 电子信息 单片机 机械机电 模具 土木工程 建筑结构 论文
热门搜索词:网络 ASP.NET 汽车 电气 数控 PLC

WPS程序资源中多国文字一致性智能判定的研究

以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
  
资料介绍:
国内外研究状况
在这里所谓的多国语言一致性是指:在WPS软件多国语言版本中,某种语言版本的软件界面展现给客户的语言文字在字符以及语法规范上都要求符合该语言的规定与要求。例如:中文版本中的菜单标题:“文件”不应该为“File”;英文中只允许出现半角标点,“number”为一个英文单词,而“numher”在英文中是错误的。我们可以将一致性分为三个级别:字符、词、语义。这三个级别种,字符级别的判定通过字符编码规则来实现的,是最容易的级别;词级别一致性的判定是建立在分词技术的基础上的,将分割出来的词与词库中的标准词库进行匹配即可完成该级别一致性的判定;语义级别一致性的判定需要对句子短语进行语法分析,是这最难的一个级别,本文主要研究了语义一致性判定的实现,采用的是自然语言处理领域里应用的最广的统计语言模型来实现语义一致性的判定。
目前,词一致性判定也可以称为拼写检查,文献[10],[11],[12]中都有提到。在实际应用当中,词一致性判定是非常常见的,在很多文献当中都有探讨。词一致性检查是基于词典的一个匹配方法,如微软的Office附带的拼写检查的功能,当我们在编辑文档的时候只要开启了拼写检查功能,系统就可以用红色的波浪线为你标记出拼写有错误的地方。此外,你还可以将一些生词添加到词典,这样当你下次执行拼写检查的时候系统能识别这些新词。拼写检查的关键是词典的建立,因为从句子中每切割出一个词都要进行词典查询,词典的建立应该满足查询方便这个条件。一个好的词典查找起来其速度可以是线性的,如:根据双数组Trie算法建立的中文词典[8]。 think58 [版权所有:http://think58.com]
语义一致性的判定的难点在于:它要求让电脑去理解句子。文献[4],[5],[14]中提出了利用统计语言模型进行中文校对与语义查错,他们进行了一些实验证明了这个观点,取得了非常好的效果。目前,国内外对于语言统计模型在自然语言处理领域已有非常多的研究与实现。如:机器翻译、文字校对等。他们对统计语言模型的研究,与本文所提出的语义一致性的研究目标是一致的。
在日常生活及工作当中,很多人都使用过语言翻译软件。如:金山快译,Google翻译。一个完全不懂英语的人,只要会使用这种工具在数秒钟的时间内便能将英文翻译成中文。这样的结果会令人感到非常的意外和惊喜,那么这种软件到底是怎样实现翻译的呢?如果我们站在翻译工具的开发者的角度来思考一下这些翻译工具的实现,首先会想到的一个问题是:怎么让机器去理解句子呢?这时,很多人会想到统计语言模型。对!在目前大家所熟知的语言翻译软件当中正是利用语言统计模型来理解句子的。
从ASCII到Unicode
ASCII是用来表示英文字符的一种编码规范,每个ASCII字符占用1个字节(8bits).因此,ASCII编码可以表示的最大字符数是256,其实英文字符并没有那么多,一般只用前128个(最高位为0),其中包括了控制字符、数字、大小写字母和其他一些符号 。而最高位为1的另128个字符被成为“扩展ASCII”,一般用来存放英文的制表符、部分音标字符等等的一些其他符号。 内容来自think58 [资料来源:http://www.THINK58.com]
这种字符编码规范用来处理英文没有什么问题 (实际上也可以用来处理法文、德文等一些其他的西欧字符,但是不能和英文通用),但是面对中文、阿拉伯文之类复杂的文字,255个字符显然不够用。
于是,各个国家纷纷制定了自己的文字编码规范,其中中文的文字编码规范叫做“GB2312-80”,它是和ASCII兼容的一种编码规范,其实就是利用扩展ASCII没有真正标准化这一点,把一个中文字符用两个扩展ASCII字符来表示。在GB2312中,GB2312的编码范围为第一位b0-f7,第二位编码范围为a1-fe,共计汉字个数为6762个。
但是这个方法有问题,最大的问题就是,中文文字没有真正属于自己的编码,因为扩展ASCII码虽然没有真正的标准化,但是PC里的ASCII码还是有一个事实标准的(存放着英文制表符),所以很多软件利用这些符号来画表格。这样的软件用到中文系统中,这些表格符就会被误认作中文字,破坏版面。而且,统计中英文混合字符串中的字数,也是比较复杂的,我们必须判断一个ASCII码是否扩展,以及它的下一个ASCII是否扩展,然后才“猜”那可能是一个中文字 。
这时候,我们就知道,要真正解决中文问题,不能从扩展ASCII的角度入手,也不能仅靠中国一家来解决。而必须有一个全新的编码系统,这个系统要可以将中文、英文、法文、德文……等所有的文字统一起来考虑,为每个文字都分配一个单独的编码,这样才不会有上面那种现象出现。于是,Unicode诞生了。 think58 [资料来源:www.THINK58.com]
2.2  Unicode、UCS和UTF
Unicode有两套标准,一套叫UCS-2(Unicode-16),用2个字节为字符编码,另一套叫UCS-4(Unicode-32),用4个字节为字符编码。 以目前常用的UCS-2为例,它可以表示的字符数为2^16=65535,基本上可以容纳所有的欧美字符和绝大部分的亚洲字符 。在Unicode里,所有的字符被一视同仁。汉字不再使用“两个扩展ASCII”,而是使用“1个Unicode”,注意,现在的汉字是“一个字符”了,于是,拆字、统计字数这些问题也就自然而然的解决了 。
UT--F= UCS Transformation Format UCS转换格式。它是将Unicode编码规则和计算机的实际编码对应起来的一个规则。现在流行的UTF有2种:UTF-8和UTF-16 。其中UTF-16和上面提到的Unicode本身的编码规范是一致的,这里不多说了。而UTF-8不同,它定义了一种“区间规则”,这种规则可以和ASCII编码保持最大程度的兼容 。UTF-8有点类似于Haffman编码,它将Unicode编码为00000000-0000007F的字符,用单个字节来表示;00000080-000007FF的字符用两个字节表示;00000800-0000FFFF的字符用3字节表示。例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。 copyright think58
[资料来源:http://www.THINK58.com]

在UTF-8里,英文字符仍然跟ASCII编码一样,因此原先的函数库可以继续使用。而中文的编码范围是在0080-07FF之间,因此是2个字节表示(但这两个字节和GB编码的两个字节是不同的)。