VC印刷体文字识别设计与实现
以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
资料介绍:
摘 要本文主要论述并设计实现了一个印刷体数字识别系统。系统首先对印刷体数字进行预处理,提取数字特征,然后运用特定的识别算法,实现了数字图像的自动识别。整个系统包括图像采集、图像预处理、特征提取与字符识别四个部分。本系统采用COMS图像传感器采集数字图像,读回印刷体数字图像的灰度数组,用于后面的处理与识别。图像预处理包括图像的二值化、图像的归一化、图像的细化,其中,图像的二值化采用阈值分割的方法,阈值的选取是通过最大类间方差法获得的;归一化主要是实现尺寸的规范化;细化采用Hilditch 细化算法。印刷体数字采用模板匹配算法实现了数字的识别。首先,在对数字进行图像处理后,采用网格特征和交叉点特征相结合的方法作为其数字特征,建立数字标准特征库。其次,进行识别时,利用待识别数字与数字标准特征库相比较,把待识别数字识别为与其模板特征向量的加权距离最小的特征向量所代表的标准数字。实验结果表明,基于模板匹配的印刷体数字识别是可行的,具有较高的识别率及较好的抗噪性能。关键词:印刷体数字识别;预处理;特征提取;模板匹配;嵌入式系统实现1 绪论1.1 研究的目的及意义人类社会己开始进入信息时代,信息产业的发展将对国家的发达和民族的兴旺产生重大的影响。因此,世界各国对信息产业的发展都给予了极大的关注和重视。人类社会的不断进步带来了信息空间的增长和积累,而计算机的出现为现代化信息处理提供了有效的手段。但是,在信息技术高速发展的同时,一个难题也摆在我们面前,那就是计算机数据处理和网络传输的高速度与数据输入的低速度之间的矛盾。目前,人类的许多信息是记录在纸上的文字图像,将这些信息输入计算机是非常繁琐而低效率的工作,这在一定的程度上减缓了社会信息化的进程。因而,作为信息化基础的数据输入成了计算机应用中的瓶颈问题。人们接受信息最频繁的是视觉通道.在日常学习和生活中,所处理的信息有75%—85%是视觉信息,其中文字信息愈来愈占重要地位.比如对各种期刊文献的阅读、查找、翻译:对各种统计报表的汇总、计算、分析;对各种函件票证的分拣、传送、验核等。要实现对这些文字信息处理过程的机械化、自动化,其先决条件就是利用计算机对这些文字信息进行识别。字符识别是利用计算机自动辨识印刷在纸上或人写在纸上的汉字,是模式识别的一个重要分支,也是文字识别领域较为困难的问题之一。它的一项关键技术是光学字符识别技术(Optical Character Recognition,简称OCR),即通过扫描仪把印刷体或手写体文稿扫描成图像,然后识别成相应的计算机可直接处理的字符。本技术涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域,都有着重要的实用价值和理论意义 .1.2 印刷体数字识别技术的关键印刷体字符由于不存在变形,或者说变形不会像手写体数字那么大,所以识别起来相对容易一点,不过也不像想象中的那么简单。下面,我们先介绍一下印刷体字符的基本知识以及特征提取和识别的方法。1.印刷体的字体印刷体字符有很多种字体,而且新的字体还在不断地产生。不同字体的同一字符的结构约80%相同,其主要差异在于:(l)同字体的字符之间有较大的差异。(2)笔划装饰及方向角度不同。(3)笔划长短、位置有变化。(4)笔划形态变化:如黑体笔划粗而平直,宽度一致:楷体笔划有较大曲率.2.印刷品质的高低由于字符笔划的不同、纸张质量的高低以及印刷版面的影响,印刷体字符在品质上有高品质和低品质之分。印刷品质越高,正确识别率也越高,对于低品质的印刷体字符识别起来有一定的困难。3.采样设备质量差异采集的待识别图像的质量与采集图像的设备质量(如摄像头,电源等)和采样外界环境(电磁干扰)有直接的关系,受外界因素的影响,图像的质量会出现各种各样的情况。1.3 嵌入式系统的特点随着计算机、电子技术的迅猛发展,计算机已迈入了另一个充满机遇的后PC时代。人们开始越来越多地接触到一个新的概念——嵌入式系统。嵌入式体统与传统的开发相比,它本身有一些独特的特点:l)专用性强,面向特定应用。这是嵌入式系统与通用型系统的最大区别。嵌入式系统的个性化很强,软、硬件结合非常紧密,一般要针对硬件进行系统的移植。2)系统精简。嵌入式系统的软件代码要求高质量,高可靠性,由于嵌入式系统设备所处的环境往往是长期无人值守或条件恶劣的情况,因此,其代码有很高的要求。3)嵌入式系统大多采用实时操作系统,而且软件要求固态存储,以提高速度。4)嵌入式系统需要专用的开发工具和环境,由于其本身不具备自主开发能力,即使设计完成以后,用户通常也不能对其中的程序功能进行修改,必须有一套开发工具和环境才能进行开发。嵌入式系统开发时有主机和目标机的概念,主机用于程序的开发,目标机作为最后的执行机,采用交叉编译的方式开发应用程序。5)嵌入式系统的硬件驱动程序必须定制,并且和嵌入式操作系统以及应用程序完全绑定在一起构成一个不可分割的整体。因此,不同的嵌入式产品在开发时必须设计符合自己系统的设备驱动程序。1.4本文主要研究的内容本文主要研究的内容是在at91fr40162s硬件平台上实现印刷体数字的识别。主要包括在Visual C++6.0中调试,模拟仿真;图像处理与识别算法的研究;将数字识别程序移植到at91fr40162s嵌入式系统中,脱机使用。在核心算法方面,影响识别率提高的主要因素有图像预处理、特征提取和识别算法三个方面。图像的预处理主要包括图像的二值化、图像的噪声处理、图像的归一化、图像细化处理。图像的二值化在光照不是很均匀的情况下很难得到比较好的二值化结果,所以阈值的选择是非常关键的;利用CMOS摄像头采集回来的图像存在噪声,需要噪声处理;特征提取前必须对整幅图像压缩,归一化处理,并且细化字符的图像。数字的特征提取部分,是整个识别算法的关键,是建立模板的依据。本文采用数字的网格特征和交叉点特征相结合的方法作为其字符特征,建立字符标准特征库。数字的识别是采用模板匹配的方法,进行识别时,利用待识别字符与字符标准特征库相比较,把待识别字符识别为与其模板特征向量的加权距离最小的特征向量所代表的标准字符。在Visual C++6.0调试方面,主要是熟悉Visual C++6.0开发环境,会建立简单的对话框、菜单,能够在可视化界面上绘图,熟悉相应操作的常用库函数,从而进行模拟仿真。 全套毕业设计包含的内容如下:源程序+论文(15000字以上)+可执行程序+答辩稿+开题报告如需要请您和我们客服QQ联系