日韩中文字幕精品人妻,全家一起乱小说

印刷體漢字識別系統(tǒng)

　　一、文字識別概述

　　從上一部分的介紹中我們可以知道，從識別技術的難度來說，手寫體識別的難度高于印刷體識別，而在手寫體識別中，脫機手寫體的難度又遠遠超過了聯(lián)機手寫體識別。到目前為止，除了脫機手寫體數(shù)字的識別已有實際應用外，漢字等文字的脫機手寫體識別還處在實驗室階段。

　　與脫機手寫體和聯(lián)機手寫體識別相比，印刷體漢字識別已經(jīng)實用化，而且在向更高的性能、更完善的用戶界面的方向發(fā)展。因為它有著廣泛的應用前景。目前，辦公自動化已成為信息社會不可避免的發(fā)展趨勢。雖然在計算機網(wǎng)絡飛速發(fā)展的今天，許多信息已經(jīng)電子化，世界各地出現(xiàn)了許多“電子版”的報紙、雜志等出版物，但是我們可以看到印刷材料的數(shù)量也大大地增加了，一些專業(yè)單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海，畢竟閱讀印刷材料更為符合人的自然閱讀習慣；同時，網(wǎng)絡信息資源的爆炸性增長以及網(wǎng)絡傳輸容量的限制，都是方便、快速地獲取這些信息的制約因素。電子化與印刷文本材料如同一枚硬幣的兩面，互相補充、互相促進，在未來的十幾年或更長的時間內(nèi)將不會出現(xiàn)一者被另一者取代的情況。

　　二、印刷體文字識別的研究歷程

　　印刷體文字的識別很早以前就是人們的夢想，早在1929年，Taushek就在德國獲得了一項有關OCR（光學字符識別）的專利。歐美國家為了將浩如煙海、與日俱增的大量報刊雜志、文件資料和單據(jù)報表等文字材料輸入計算機進行信息處理，從50年代就開始了西文OCR技術的研究，以便代替人工鍵盤輸入。

　　印刷體漢字的識別最早可以追溯到60年代。1966年，IBM公司的Casey和Nagy發(fā)表了第一篇關于印刷體漢字識別的論文，在這篇論文中他們利用簡單的模板匹配法識別了1,000個印刷體漢字。70年代以來，日本學者做了許多工作，其中有代表性的系統(tǒng)有1977年東芝綜合研究所研制的可以識別2000個漢字的單體印刷漢字識別系統(tǒng)；80年代初期，日本武藏野電氣研究所研制的可以識別2300個多體漢字的印刷體漢字識別系統(tǒng)，代表了當時漢字識別的最高水平。此外，日本的三洋、松下、理光和富士等公司也有其研制的印刷體漢字識別系統(tǒng)。這些系統(tǒng)在方法上，大都采用基于數(shù)字變換的匹配方案，使用了大量專用硬件，其設備有的相當于小型機甚至大型機，價格極其昂貴，沒有得到廣泛應用。

　　我國對印刷體漢字識別的研究始于70年代末80年代初，大致可以分為三大階段：
　　(1) 第一階段從70年代末期到80年代末期，主要是算法和方案探索。
　　(2) 第二階段是90年代初期，中文OCR由實驗室走向市場，初步實用。
　　(3) 第三階段也就是目前，主要是印刷體漢字識別技術和系統(tǒng)性能的提高，包括漢英雙語混排識別率的提高和穩(wěn)定性的增強。

　　同國外相比，我國的印刷體漢字識別研究起步較晚。但由于我國政府對漢字自動識別輸入的研究從80年代開始給予了充分的重視和支持，經(jīng)過科研人員十多年的辛勤努力，印刷體漢字識別技術的發(fā)展和應用，有了長足進步：從簡單的單體識別發(fā)展到多種字體混排的多體識別，從中文印刷材料的識別發(fā)展到中英混排印刷材料的雙語識別。各個系統(tǒng)可以支持簡、繁體漢字的識別，解決了多體多字號混排文本的識別問題，對于簡單的版面可以進行有效的定量分析，同時漢字識別率已達到了98%以上。

　　清華大學電子工程系、中國科學院計算所智能中心、北京信息工程學院、沈陽自動化研究所等單位分別研制開發(fā)出實用化的印刷體漢字識別系統(tǒng)。尤其是由清華大學電子工程系研制的清華TH-OCR產(chǎn)品，始終處于技術與產(chǎn)品發(fā)展的最前沿，并占據(jù)著最大的市場份額，代表著中文OCR技術發(fā)展的潮流。

　　這一成就，是對中華文化寶貴遺產(chǎn)的繼承和發(fā)揚，在世界電腦發(fā)展史上，必將留下光輝的一頁，同時，這也是造福子孫千秋萬代的大事。國家高技術研究發(fā)展“863"計劃、國家重點科技攻關計劃、國家自然科學基金和軍事基礎研究基金都對這一研究課題予以極大的重視和大力的支持。

　　三、結(jié)論與展望

　　總體來說，近幾年來國內(nèi)對印刷體漢字識別的研究還是相當深入的，也取得了很大成績，使系統(tǒng)的識別率不斷上升。目前印刷體漢字識別系統(tǒng)的應用已經(jīng)相當成熟。例如，剛剛通過國家教委鑒定的清華TH－OCR97綜合集成漢字識別系統(tǒng)，對中等質(zhì)量的樣本，識別率已經(jīng)可以達到99%左右或更高。不過，這些系統(tǒng)還存在著一些可改進之處：

　　1、從識別角度
　　(1) 漢字識別率總是漢字識別中最重要的指標，應該達到更新的高度，從而最大程度地減少用戶校對、修改的工作量。
　　(2) 印刷體漢字識別的魯棒性(Robustness)還不夠強。Robust在英文中是“健壯的”或“強的”之意。魯棒性可以理解為識別系統(tǒng)對于不同質(zhì)量、不同字號、不同字體的文本圖象表示出來的適應性。在文字識別中，識別系統(tǒng)的魯棒性尤其反應在隨著印刷質(zhì)量的下降，系統(tǒng)誤識率的上升趨勢上。
　　目前的OCR系統(tǒng)都對掃描圖象的質(zhì)量有一定要求，掃描亮度不能太暗也不能太亮，保證文字的圖象即不會暗成一個黑塊也不會亮得筆畫發(fā)生很多斷裂。這就對用戶的使用提出了較高要求。
　　印刷文本的質(zhì)量可能千差萬別，一般用戶對掃描儀的操作也可能不夠合適，這往往造成識別圖象的質(zhì)量不佳，為使任何未經(jīng)訓練的用戶都能用好OCR系統(tǒng)，系統(tǒng)的魯棒性必須不斷提高。
　　(3) 漢英混排文本的切分仍不夠成熟。與識別技術相比，對切分的理論和方法還缺乏系統(tǒng)的研究和有效的成果。隨著漢字識別率的上升以及漢英混排文本的增多，切分錯誤在所有錯誤中所占的比重不斷上升，怎樣使文字正確分割變成了另一個還未很好解決的問題。

　　2、用戶界面和自動化程度方面
　　(1) 掃描儀自動亮度調(diào)節(jié)，無須用戶選擇門限，自動隨文本種類、印刷質(zhì)量不同選擇合適的掃描儀亮度門限，以保證識別率。
　　(2) 版面的自動分析，無需人工干預，可以將印刷文本材料，如報紙、雜志等，上面有各種插圖、表格、花邊，且同時存在橫、豎版面等加以區(qū)分和作相應的標記，以便分別處理。
　　(3) 中文印刷表格的自動錄入，對于中文印刷表格，可以進行框線的自動檢測、欄目自動切分，直至將各欄目中的內(nèi)容識別出來，并且可以和數(shù)據(jù)庫直接相連，完成印刷表格自動錄入至數(shù)據(jù)庫的任務。
　　(4) 版面自動恢復，僅有文字識別往往不能滿足實際需要。能夠保持原來的排版形式、字體信息、表格和插入的圖形圖象，以便在Word、北大方正等排版軟件中直接修改，一直是許多用戶的夢想。
　　(5) 系統(tǒng)提供用戶自學習功能，使用戶自由地擴大專業(yè)識別字符集；以及適用于各種應用環(huán)境的漢字識別系統(tǒng)。例如：MS-DOS環(huán)境、Windows環(huán)境和UNIX環(huán)境下中文OCR版本，滿足不同用戶的需求。

　　3、其它方面
　　(1) 系統(tǒng)總體性能的進一步提高。解決像報紙這種欄目多而位置排列復雜的印刷文本材料的版面自動理解；利用自然語言理解知識進行識別后處理；進一步提高英文的識別率和適應性，降低系統(tǒng)的誤識率，等等。
　　(2) Internet/Intranet上的網(wǎng)絡版本。充分利用網(wǎng)絡上的資源及計算能力，提高系統(tǒng)的性能，使用戶能夠更方便地協(xié)同工作。
　　(3) 系統(tǒng)固化以及系統(tǒng)各部分的質(zhì)量和性能的穩(wěn)定提高。
　　(4) 擴大OCR核心技術的應用范圍，開發(fā)更多的應用系統(tǒng)，并將研究成果迅速轉(zhuǎn)化為產(chǎn)品，提高軟件的商品化水平，使之能大量地走出國門，走向全世界。
　　這些都是漢字識別系統(tǒng)急待解決的問題，也是漢字識別技術今后努力發(fā)展的重要方向。

丰满熟女人妻一区二区三,教师妈妈黄美龄,情色有声小说,梁爱琪主演电影,公车上弄得我好爽,我七个姐姐绝世无双小说最新章节,东京热:一本道无码av,成人无码区免费a 视频app,在线手机三级理论电影

印刷體漢字識別系統(tǒng)