OCR光学字符识别防伪术在证件上的应用

发布时间:2018-01-29

OCR(Optical character recognition光学字符识别)技术出现于上世纪50年代中期,至今已有40余年的历史,70年代后期,由于LSI及CCD器件的出现使其进入了一个崭新的实用阶段,在计算机自动录入、票据识别、信函分拣、资料分析等很多方面获得了广泛应用。
  
    OCR技术是随着模式识别和人工智能研究的发展而产生的文字识别技术,在国际上,文字识别目前主要指光学字符识别(OCR)。所谓光学字符识别,简言之就是用电子计算机自动辨别写或印在纸(或其他介质)上的文字。
  
    近十几年来,它又被成功移植到证件行业上来,并制定出了相应的国际标准。由于其独特的技术特点,在护照、签证、身份证及大型会议代表证等ID(Identification)领域获得了广泛的应用。OCR证件阅读机(OCR ID document reader)就是用于识读此类证件的计算机专用外部设备。该设备融光、机、电、计算机技术于一体,涉及模式识别、图像处理、人工智能等学科知识。
  
    OCR技术的识别原理可以简单地分为相关匹配识别、概率判定准则及句法模式识别三大类。相关匹配识别是根据字符的直观形象提取特征,用相关匹配进行识别。这种匹配既可在空间区域内及时间域内进行,同时也可在频率域内进行,相关匹配又可细分为图形匹法、笔划分析法、几何特征提取法等;利用文字的统计特性中的概率分布,用概率判定准则进行识别称概率判定准则法,如利用字符可能出现的先验概率,结合一些其它条件,计算出输入字符属于某类的概率,通过概率进行判别,根据字符的结构,用有限状态文法结构,构成形式语句,用语言的文法推理来识别文字的方法就是语句模式识别法。近年来,人工神经网络和模糊数学理论的发展,对OCR技术起到了进一步的推动作用。
  
    广义OCR包含的内容十分广泛,按所处理的字符集可分为:西文识别(包括数字、字母和符号)和汉字识别,按识别文字类型可分为:单体印刷体识别、多体印刷体识别、手写印刷体识别和自然手写体识别;此外,如票据识别、图纸自动录入和理解、笔迹鉴别、印章鉴定等都可归为OCR技术范畴。
  
    衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度等。
  近些年来,现代证件技术和OCR技术相结合产生了OCR技术和证件技术的简单揉和,也不是普通OCR的简单化,而是一门受到有关各界广泛重视的,具有较大发展前途的新兴技术。一般情况下,我们把采用此项技术的证件成为OCR证件(OCR ID document)把OCR证件信息的读出设备成为OCR证件阅读机(OCR ID documents reader),并称适应于OCR证件的文字识别技术为证件OCR。OCR证件技术研究涉及多项国际标准化组织(或某些领域的权威机构)颁发的统一标准,研究内容包括:有别于传统证件的制作工艺和颁发流程、专用的信息读出设备,适用于OCR证件的证件信息管理系统。
  
    一般来说,适于采用OCR技术的证件主要是一次性颁发,长时期有效,信息不可改写的身份证件,如由政府机关颁发的护照、签证、居民身份证、儿童证等。总之,随着应用范围的不断扩大,OCR 证件从1990年以来,已有加拿大,美国,日本,新加坡,泰国,南韩等十几个国家的国民护照上采用了光学字符(OCR),使护照证件能够机读,大大地加快了通关速度。此外,还有荷兰,法国,列支敦士登等国家颁发了含有OCR字符的身份证件。我国的因私护照也在92年推广了在资料页上打印OCR字符的工作,设计有三行OCR字符的"港澳居民往来内地通行证"也已正式启用。

OCR证件的许多技术指标和常用格式,均有国际通用标准规定或已形成国际惯例,与OCR证件技术相关的各种标准很多,目前,OCR证件主要有三种信息记录格式:ID-1(3行×30字)ID-2(2行×36字),ID-3(2行×44字)(记录信息量都在80BYTE左右,对普通身份证件比较适中)。每种格式证件的尺寸规格和燃烧性、毒性、抗腐蚀性、温度/湿度特性、光谱反射率等物理特性在ISO7801中规定。
  
    用于OCR证件印刷或打印字体主要有OCR-A和OCR-B两种,字符的各种细节和大小尺寸在ISO1073/I和ISO1073/Ⅱ中规定。
  
    为保证良好的读出率,OCR证件机读码的打印/印刷质量(如打印灰度、油墨光谱、字符缺损和噪音控制等)必须保证,这些指标在ISO1831中有详尽的叙述。
  
    OCR证件生成流程中,打印设备必须采用高精度的打印机,最好是分辨率在300DPI以上的激光打印机,纸张裁切装置其裁切精度至少应达到0.3mm以上精度。与一般证件不同,OCR证件在正式发放前必须进行质量检查,只有检查合格的才能发放。用于完成OCR证件发放前质量控制的设备成为OCR 证件校验机,用于对机读护照进行质量控制的机器就是机读护照校验机。OCR证件校验机其工作原理与阅读机基本一致,但它除了对证件上的机读码进行识读外,更重要的功能是对证件的各种参数如机读码位置、衬纸反射率、字符浓淡和机读码字体是否标准等进行测量,从而达到剔除不合格证件的目的。正因为校验机和阅读机实现的功能不同,所以考核二者的指标也不一样,对于阅读机主要强调其识别正确率和识别速度。对于校验机参数测量是主要功能,必须保证测量精度和测量准确性,如对机读码打印位置的测量至少应精确到0.1mm以上,最好能达到0.05mm。相对而言,校验机字符识别方法较阅读机简单,甚至可以简单的采用固定点阵模板匹配进行识别,其目的是对与标准字符差异较大给予指示。至于速度,一般来说校验机完成一本证件质量检查的时间小于4秒就可以接受。
  
    OCR证件阅读机是OCR证件是否能很好地推广应用的关键所在。OCR证件阅读机其主要功能是尽量快速、准确地识读证件上的机读码信息,一般地说,阅读一本证件的时间应2秒,按字符计识别准确率应达到99,9%以上。
  与普通OCR系统不同,OCR证件阅读机不可能采用普通扫描仪扫描图像,必须有专用的图象扫描设备;此外,针对证件这一特殊对象,文字识别软件较普通OCR也存在一些差异。一般情况下,我们可以把OCR证件阅读机粗略地划分为由图象扫描和字符识别两大部分组成,不同的设计,其实现方案也不同。
  
    普通扫描仪输出一般为多灰度图象,对于文字识别多灰度并没有什么优势,相反采用二值化图象更为适合,普通OCR系统一般是在识别前利用人工设置阈值,通过软件方法对灰度图象进行二值化。对于OCR证件阅读机,扫描部分直接输出二值图象,这样不但可大幅度减小数据量,而且可降低整机成本。同时这也带来一个问题,部分OCR证件阅读机其应用对象比较复杂,如机读护照阅读机,除了要阅读本国的护照外,还要阅读世界各国的护照(包括机读签证),因各国护照的制作技术、印刷工艺、底花和封膜各异,为尽量加大衬底纸与字符的反差,同时不影响证件上各种底花和防伪线的使用,OCR证件技术一般把光谱选在B900谱段。
  
    OCR证件技术是近些年才产生和发展起来的一门新兴技术,仍在进一步发展,其相应的一些国际标准也日趋完善,应用领域也日益扩大,尤其在政府签发的具有法律效力的个人身份证应用上已得到全球各国普遍重视,愈来愈多的国家和地区开始采用此技术。从全球范围来讲,加拿大3M-AIT公司从事此项技术研究已有十余年的历史,技术上也代表着时代潮流。最近几年,英、德、日、澳也相继推出了同类产品。现在OCR证件技术又与人体生物学牲识别相结合起来,正朝着人证合一(即持证人与证件的一致性)的技术方向发展。

上一篇: 护照”相关知识
下一篇: 没有了