采用模板匹配法进行数字识别
以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
资料介绍:
摘??? 要
数字识别(Digital Recognition)是光学字符识别技术(Optical Character Recognition,简称OCR)的一个分支,数字识别分为印刷体数字识别和手写体数字识别,
而手写体数字识别又分为联机手写体数字识别和脱机手写体数字识别。
本文主要论述并设计实现了一个印刷体数字识别系统。系统首先对印刷体数字进行预处理,提取数字特征,然后运用特定的识别算法,实现了数字图像的自动识别。整个系统包括图像采集、图像预处理、特征提取与字符识别四个部分。
印刷体数字采用模板匹配算法实现了数字的识别。首先,在对数字进行图像处理后,采用网格特征和交叉点特征相结合的方法作为其数字特征,建立数字标准特征库。其次,进行识别时,利用待识别数字与数字标准特征库相比较,把待识别数字识别为与其模板特征向量的加权距离最小的特征向量所代表的标准数字。实验结果表明,基于模板匹配的印刷体数字识别是可行的,具有较高的识别率及较好的抗噪性能。
关键词:印刷体数字识别;预处理;特征提取;模板匹配
v:* {behavior:url(#default#VML);}
o:* {behavior:url(#default#VML);}
w:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
研究的目的及意义
人类社会己开始进入信息时代,信息产业的发展将对国家的发达和民族的兴旺产生重大的影响。因此,世界各国对信息产业的发展都给予了极大的关注和重视。人类社会的不断进步带来了信息空间的增长和积累,而计算机的出现为现代化信息处理提供了有效的手段。但是,在信息技术高速发展的同时,一个难题也摆在我们面前,那就是计算机数据处理和网络传输的高速度与数据输入的低速度之间的矛盾。目前,人类的许多信息是记录在纸上的文字图像,将这些信息输入计算机是非常繁琐而低效率的工作,这在一定的程度上减缓了社会信息化的进程。因而,作为信息化基础的数据输入成了计算机应用中的瓶颈问题。人们接受信息最频繁的是视觉通道.在日常学习和生活中,所处理的信息有75%—85%是视觉信息,其中文字信息愈来愈占重要地位.比如对各种期刊文献的阅读、查找、翻译:对各种统计报表的汇总、计算、分析;对各种函件票证的分拣、传送、验核等。要实现对这些文字信息处理过程的机械化、自动化,其先决条件就是利用计算机对这些文字信息进行识别。
字符识别是利用计算机自动辨识印刷在纸上或人写在纸上的汉字,是模式识别的一个重要分支,也是文字识别领域较为困难的问题之一。它的一项关键技术是光学字符识别技术(Optical Character Recognition,简称OCR),即通过扫描仪把印刷体或手写体文稿扫描成图像,然后识别成相应的计算机可直接处理的字符。本技术涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域,都有着重要的实用价值和理论意义
.
1.2????
印刷体数字识别技术的关键
印刷体字符由于不存在变形,或者说变形不会像手写体数字那么大,所以识别起来相对容易一点,不过也不像想象中的那么简单。下面,我们先介绍一下印刷体字符的基本知识以及特征提取和识别的方法
。
1.印刷体的字体
印刷体字符有很多种字体,而且新的字体还在不断地产生。不同字体的同一字符的结构约80%相同,其主要差异在于:
(l)同字体的字符之间有较大的差异。
(2)笔划装饰及方向角度不同。
(3)笔划长短、位置有变化。
(4)笔划形态变化:如黑体笔划粗而平直,宽度一致:楷体笔划有较大曲率.
2.印刷品质的高低
由于字符笔划的不同、纸张质量的高低以及印刷版面的影响,印刷体字符在品质上有高品质和低品质之分。印刷品质越高,正确识别率也越高,对于低品质的印刷体字符识别起来有一定的困难。
3.采样设备质量差异
采集的待识别图像的质量与采集图像的设备质量(如摄像头,电源等)和采样外界环境(电磁干扰)有直接的关系,受外界因素的影响,图像的质量会出现各种各样的情况。
1.3本文主要研究的内容
本文主要研究的内容主要包括在Visual C++6.0中调试,模拟仿真;图像处理与识别算法的研究。
在核心算法方面,影响识别率提高的主要因素有图像预处理、特征提取和识别算法三个方面。
图像的预处理主要包括图像的二值化、图像的噪声处理、图像的归一化、图像细化处理。图像的二值化在光照不是很均匀的情况下很难得到比较好的二值化结果,所以阈值的选择是非常关键的;特征提取前必须对整幅图像压缩,归一化处理,并且细化字符的图像。数字的特征提取部分,是整个识别算法的关键,是建立模板的依据。本文采用数字的网格特征和交叉点特征相结合的方法作为其字符特征,建立字符标准特征库。数字的识别是采用模板匹配的方法,进行识别时,利用待识别字符与字符标准特征库相比较,把待识别字符识别为与其模板特征向量的加权距离最小的特征向量所代表的标准字符。
在Visual C++6.0调试方面,主要是熟悉Visual C++6.0开发环境,会建立简单的对话框、菜单,能够在可视化界面上绘图,熟悉相应操作的常用库函数,从而进行模拟仿真。