@article{oai:nichibun.repo.nii.ac.jp:00000886, author = {小野, 芳彦}, journal = {日本研究}, month = {Sep}, note = {旧字体で印刷された文書などをOCR(光学文字認識装置)で読み取った場合の誤認識を、人手の後編集の前に自動的に訂正するプログラムを開発した。  日本語の漢字かな交じり文の印刷文書を、現在のOCRは99%以上の精度で読み取るとされている。悪条件下でも、現代フォントの活字ならば95%は正確に読み取るが、旧字体の活字では正読率は80%に満たない。本プログラムはこの状況を改善することを目標としている。  本プログラムは、OCRの入力と、その人手による編集結果を比較して、どういう読み誤りをするかの知識を抽出集積して、それを自動的な訂正コマンドに作り上げるものである。実験によると、正読率80%弱のテキストに本プログラムが抽出した自動訂正コマンドをかけると、約10ポイントの向上があり、実質正読率90%に達することがわかった。}, pages = {182(1)--173(10)}, title = {文化系の計算機利用III : 旧字体活字の文書の自動読み取りの改良}, volume = {9}, year = {1993} }