中文手写识别技术研究报告

2024-06-26 15:26:21 责编:小OO

中文手写识别技术研究报告

一、概念定义：

模式识别：指识别出给定物体所归属的类别。

文字识别：由计算机自动识别各种字符，如字母、数字、汉字或其他语言中的字符

二、识别分类：

根据文字的字体：可分为手写体文字识别和印刷体文字识别。

根据采用的输入设备:可以分为联机识别和脱机识别。

根据识别对象的不同：文字识别又相应地分为西文识别、数字识别和汉字识别等。

汉字识别系统的分类：通常分为手写汉字识别系统和印刷汉字识别系统两大类。按输入方式不同，手写汉字识别系统又分为联机和脱机两种。

联机手写识别：

指将字符书写在与计算机相连的书写板上，由计算机根据字符的书写轨迹进行实时识别，因此联机识别是针对手写体而言的；

它又叫做实时，在线手写体识别。使用光笔在图形输入板上写字，人在书写的同时，机器根据书写的笔画、笔顺提取特征信息进行识别，是一种方便的文字输入手段，也是文字识别的一种。

目前市面上使用的主要就是基于联机的手写识别。

联机识别可以采集到更多的信息，如时间、点的座标、笔画运动轨迹、笔顺等动态信息，为文字识别提供更多依据，降低识别难度

一个是联机手写时，用户对写字板或书写设备的不适应性，会产生比较多的干扰；二是用户书写的习惯，主要是不同用户书写时笔画的顺序各有不同，增加识别难度；三是书写时笔画连笔的问题,会造成笔画的误识别。

脱机手写识别：

指将字符书写或打印在纸张上，用扫描仪或其他光电转换装置将其转换成电信号输入到计算机中，再由机器进行识别。

脱机手写体识别:又叫做离线手写体识别。由书写者预先将字写在纸上，通过扫描仪转换成图像，再由计算机识别成汉字。

由于手写风格因人而异，同一个人书写时变化较多，且无法获得实时信息，它是文字识别领域最难的分支，目前实现仍是困难的。

涉及的识别模式繁杂，技术难度大。

目前已成熟并实际应用的主要是汉字印刷体的脱机识别，脱机手写识别目前可能还处于实验阶段，实现难度大。

三、识别过程：

一个模式识别系统可分为四个主要部分：

1：数据获取2：预处理3：特征提取和选择4分类器（分类器设计和决策）

其中最关键部分为：特征提取和分类器。而所要提取的特征又基于识别所采用的分类器。

四、识别模式：（现有的几种方式）

1．统计识别：

基本思想是将特征撮阶段得到的特征向量定义在一个牲空间中，这个空间包含了所有的特征矢量。不同的特征向量，或者说不同类别的对象，都对应于些空间中的一点。在分类阶段，则利用统计决策的原理对特征空间进行划分，从而达到识别不同特征对象的目的。

特点：它所应用的统计决策分类理论相对比较成熟，研究的重点是特征提取。

优点：抗干扰能力强，有效去除噪声，适宜识别有噪声的文字

缺点：对用来区分结构的敏感部位的差异也会被“淹没”在特征值的累加和里，无法有效地利用字形的结构信息。

2．句法结构识别：

它是对统计识别方法的补充。统计识别方法是用数值来描述图像的特征，句法方法则是用符号来描述图像特征的。它模仿了语言学中句法的层次结构，采用分层描述的方法，把复杂图像分解为单层或多层的简单子图像，主要突出了识别对象的结构信息。图像识别是从统计方法发展起来的，而句法方法更扩大了识别的能力，使其不仅限于对事物的分类，而且还用于景物的分析与物体结构的识别。

优点：对文字的结构特征敏感性强，能有效利用字形的结构规律来识别，对文字变体、变形适应性好。

缺点：不稳定性和抗干扰能力低。

3．模糊识别：

它的理论基础是模糊数学。它根据人辨识事物的思维逻辑，吸取人脑的识别特点，将计算机中常用的二值逻辑转向连续逻辑。模糊识别的结果是用被识别对象隶属于某一类别的程序即隶属度来表示的，一个对象可以在某种程度上属于另一类别。一般常规识别方法则要求一个对象只能属于某一类别。基于模糊集理论的识别方法有：最大隶属原则识别法、择近原则识别法和模糊聚类法。

（比较少看到模糊识别的介绍，对其优劣暂无了解。在一些很成熟的识别方法里面，别人采用了第一或第二种方式来识别的时候，有提到算法里面有加了模糊算法的应用。）

4．人工神经网络识别：

它起源于对生物神经系统的研究。它将若干处理单元（即神经元）通过一定的互连模型连成一个网络，这个网络通过一定的机制（如BP网络）可以模仿人的神经系统的动作过程，以达到识别分类的目的。人工神经网络区别于其他识别方法的最大特点是它对待识别的对象不要求有过多的分析与了解，具有一定的智能化处理的特点。神经网络侧重于模拟和实现人认知过程中的感知觉过程、形象思维、分布式记忆、自学习和自组织过程，与符号处理是一种互补关系。但神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学习的能力，特别适用于处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

优点：并行性强；非线性全局作用强；容错性、自适应性、联想记忆功能、自学习功能强；

缺点：算法复杂；规模大；实现难度高；

5．模板匹配

原理：选择已知的对象作为模板，与图像中选择的区域进行比较，从而识别目标。模板匹配依据模板选择的不同，可以分为两类：①以某一已知目标为模板，在一幅图像中进行模板匹配，找出与模板相近的区域，从而识别图像中的物体，如点、线、几何图形、文字以及其他物体；②以一幅图像为模板，与待处理的图像进行比较，识别物体的存在和运动情况。模板匹配的计算量很大，相应的数据的存储量也很大，而且随着图像模板的增大，运算量和存储量以几何数增长。如果图像和模板大到一定程度，就会导致计算机无法处理，随之也就失去了图像识别的意义。模板匹配的另一个缺点是由于匹配的点很多，理论上最终可以达到最优解，但在实际中却很难做到。

优点：模板匹配并不需要特征提取过程，字符的图像直接作为特征，与字典中的模板相比，相似度最高的模板类即为识别结果；简单易行，可以并行处理；

缺点：一个模板只能识别同样大小、同种字体的字符，对于倾斜、笔划变粗变细均无良好的适应能力。

6．支持向量机的模式识别：

基本思想是：先在样本空间或特征空间，构造出最优超平面，使得超平面与不同类样本集之间的距离最大，从而达到最大的泛化能力。支持向量机结构简单，并且具有全局最优性和较好的泛化能力，自2０世纪９０年代中期提出以来得到了广泛的研究。支持向量机方法是求解模式识别和函数估计问题的有效工具。ＳＶＭ在数字图像处理方面的应用是：寻找图像像素之间的特征的差别，即从像素点本身的特征和周围的环境（临近的像素点）出发，寻找差异，然后将各类像素点区分出来。

（比较少看到使用这种方式进行文字识别的）

五、针对中文字符识别所采用的特征识别方法分为两大类：

1、基于统计特征的识别技术：

一般是选取同一类字符有的、相对稳定的并且分类性能好的统计特征作为特征向量。常用的统计特征有字符二维平面的位置特征、字符在水平或者垂直方向投影的直方图特征、矩特征和字符经过频域变换或其它形式变换后的特征等。

大量字符的统计特征经过提取、学习、分类形成关于字符原型知识，构成识别字符的模板信息，这些模板信息存储在识别系统中。未知图像在识别时首先提取相同的统计特征，

然后与识别系统存储的字符原型知识匹配比较，根据比较结果确定字符最终分类，达到识别的目的。

衡量匹配程度的指标常采用各种向量间的距离指标，例如欧式距离、绝对值距离等，为了表达方式的统一，以这些距离为基础，可以得到归一化匹配程度。其中，基于字符像素点平面分布特征的识别算法，因为算法简单、实现方便的特点而成为最常用的匹配方法。这种算法一般先将字符图像归一化为模板的几何维数，然后根据像素点的位置逐个匹配，求出模板和图像的某种距离指标。

缺点：由于要对每个像素点逐个匹配，造成算法实现计算量大，且对噪音、字符的偏移和变形非常敏感，因此对输入的待识别图像要求较高。

主要用的识别方法有：

．1方向线素特征识别方法

．2隐马尔可夫模型

．3支持向量机识别模型

．4基于神经网络的字符识别模型

2、基于结构特征字符识别技术：

结构特征可以准确的描述待识别字符的几何特征，同时受噪声和变形的影响较小，因此基于结构的识别方法是文字识别的一种有力工具。结构特征通常包括特征点、笔画、线段等。常用的结构特征有：笔划的走向、孤立的点，以及是否含有闭合笔画等。

适用范围：主要应用于联机手写字符识别上，因为在手写过程中更能清晰准确地采集到字符笔画、书写座标、轨迹等信息。

主要用的识别方法有：

．1基于笔段的识别方法

．2基于部件的识别方法

六、脱机与联机手写字符识别在识别方法上常用的方式：

联机与脱机两种方式在工作原理上是一样的，但技术上有重要的区别。

脱机手写字符识别：目前采用的识别模式主要为：统计识别模式（如隐马尔可夫模型(HMM)）、人工神经网络识别模式（如Hopfield神经网络前向多层神经网络、RBF网络、自组织特征映射网络）、模糊识别模式、基于向量机的模式识别模式。

联机手写字符X别：目前采用的主要识别模式为：统计识别模式、句法结构识别模式（基于笔段和基于部件的识别方法）。其中大多数联机识别都是采用基于笔画识别的。对于大字符集识别时，还需要加入模糊数学和人工智能的方法。

下载本文

显示全文

全部频道

中文手写识别技术研究报告