WEKO3
アイテム
{"_buckets": {"deposit": "942f2d25-001a-4370-af2b-e709766f40e4"}, "_deposit": {"created_by": 3, "id": "886", "owners": [3], "pid": {"revision_id": 0, "type": "depid", "value": "886"}, "status": "published"}, "_oai": {"id": "oai:nichibun.repo.nii.ac.jp:00000886", "sets": []}, "author_link": ["18736", "18735"], "item_5_alternative_title_20": {"attribute_name": "その他の言語のタイトル", "attribute_value_mlt": [{"subitem_alternative_title": "A Computer Utilization on Humanities III : Improvement of OCR Recognition of Documents Printed in Old-fashioned Japanese Fonts"}]}, "item_5_biblio_info_7": {"attribute_name": "書誌情報", "attribute_value_mlt": [{"bibliographicIssueDates": {"bibliographicIssueDate": "1993-09-30", "bibliographicIssueDateType": "Issued"}, "bibliographicPageEnd": "173(10)", "bibliographicPageStart": "182(1)", "bibliographicVolumeNumber": "9", "bibliographic_titles": [{"bibliographic_title": "日本研究"}]}]}, "item_5_description_15": {"attribute_name": "フォーマット", "attribute_value_mlt": [{"subitem_description": "application/pdf", "subitem_description_type": "Other"}]}, "item_5_description_4": {"attribute_name": "抄録", "attribute_value_mlt": [{"subitem_description": " 旧字体で印刷された文書などをOCR(光学文字認識装置)で読み取った場合の誤認識を、人手の後編集の前に自動的に訂正するプログラムを開発した。", "subitem_description_type": "Abstract"}, {"subitem_description": " 日本語の漢字かな交じり文の印刷文書を、現在のOCRは99%以上の精度で読み取るとされている。悪条件下でも、現代フォントの活字ならば95%は正確に読み取るが、旧字体の活字では正読率は80%に満たない。本プログラムはこの状況を改善することを目標としている。", "subitem_description_type": "Abstract"}, {"subitem_description": " 本プログラムは、OCRの入力と、その人手による編集結果を比較して、どういう読み誤りをするかの知識を抽出集積して、それを自動的な訂正コマンドに作り上げるものである。実験によると、正読率80%弱のテキストに本プログラムが抽出した自動訂正コマンドをかけると、約10ポイントの向上があり、実質正読率90%に達することがわかった。", "subitem_description_type": "Abstract"}]}, "item_5_full_name_3": {"attribute_name": "著者別名", "attribute_value_mlt": [{"nameIdentifiers": [{"nameIdentifier": "18736", "nameIdentifierScheme": "WEKO"}], "names": [{"name": "ONO, Yoshihiko"}]}]}, "item_5_identifier_registration": {"attribute_name": "ID登録", "attribute_value_mlt": [{"subitem_identifier_reg_text": "10.15055/00000880", "subitem_identifier_reg_type": "JaLC"}]}, "item_5_publisher_33": {"attribute_name": "出版者", "attribute_value_mlt": [{"subitem_publisher": "国際日本文化研究センター"}]}, "item_5_source_id_10": {"attribute_name": "書誌レコードID", "attribute_value_mlt": [{"subitem_source_identifier": "AN10088118", "subitem_source_identifier_type": "NCID"}]}, "item_5_source_id_8": {"attribute_name": "ISSN", "attribute_value_mlt": [{"subitem_source_identifier": "09150900", "subitem_source_identifier_type": "ISSN"}]}, "item_5_version_type_16": {"attribute_name": "著者版フラグ", "attribute_value_mlt": [{"subitem_version_resource": "http://purl.org/coar/version/c_970fb48d4fbd8a85", "subitem_version_type": "VoR"}]}, "item_creator": {"attribute_name": "著者", "attribute_type": "creator", "attribute_value_mlt": [{"creatorNames": [{"creatorName": "小野, 芳彦"}], "nameIdentifiers": [{"nameIdentifier": "18735", "nameIdentifierScheme": "WEKO"}]}]}, "item_files": {"attribute_name": "ファイル情報", "attribute_type": "file", "attribute_value_mlt": [{"accessrole": "open_date", "date": [{"dateType": "Available", "dateValue": "2015-11-11"}], "displaytype": "detail", "download_preview_message": "", "file_order": 0, "filename": "nk09008.pdf", "filesize": [{"value": "8.0 MB"}], "format": "application/pdf", "future_date_message": "", "is_thumbnail": false, "licensetype": "license_free", "mimetype": "application/pdf", "size": 8000000.0, "url": {"label": "nk09008.pdf", "url": "https://nichibun.repo.nii.ac.jp/record/886/files/nk09008.pdf"}, "version_id": "26b0c6ff-418c-45a4-b6b3-a51f805be014"}]}, "item_keyword": {"attribute_name": "キーワード", "attribute_value_mlt": [{"subitem_subject": "OCR", "subitem_subject_scheme": "Other"}, {"subitem_subject": "旧字体", "subitem_subject_scheme": "Other"}, {"subitem_subject": "SED", "subitem_subject_scheme": "Other"}, {"subitem_subject": "文字列処理言語", "subitem_subject_scheme": "Other"}, {"subitem_subject": "正読率", "subitem_subject_scheme": "Other"}, {"subitem_subject": "後編集による改善", "subitem_subject_scheme": "Other"}, {"subitem_subject": "自動差分検出", "subitem_subject_scheme": "Other"}]}, "item_language": {"attribute_name": "言語", "attribute_value_mlt": [{"subitem_language": "jpn"}]}, "item_resource_type": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"resourcetype": "departmental bulletin paper", "resourceuri": "http://purl.org/coar/resource_type/c_6501"}]}, "item_title": "文化系の計算機利用III : 旧字体活字の文書の自動読み取りの改良", "item_titles": {"attribute_name": "タイトル", "attribute_value_mlt": [{"subitem_title": "文化系の計算機利用III : 旧字体活字の文書の自動読み取りの改良"}]}, "item_type_id": "5", "owner": "3", "path": ["234"], "permalink_uri": "https://doi.org/10.15055/00000880", "pubdate": {"attribute_name": "公開日", "attribute_value": "2012-04-01"}, "publish_date": "2012-04-01", "publish_status": "0", "recid": "886", "relation": {}, "relation_version_is_last": true, "title": ["文化系の計算機利用III : 旧字体活字の文書の自動読み取りの改良"], "weko_shared_id": -1}
文化系の計算機利用III : 旧字体活字の文書の自動読み取りの改良
https://doi.org/10.15055/00000880
https://doi.org/10.15055/000008809cfb60c2-674a-41b7-b431-f00889863051
名前 / ファイル | ライセンス | アクション |
---|---|---|
nk09008.pdf (8.0 MB)
|
|
Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2012-04-01 | |||||
タイトル | ||||||
タイトル | 文化系の計算機利用III : 旧字体活字の文書の自動読み取りの改良 | |||||
言語 | ||||||
言語 | jpn | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | departmental bulletin paper | |||||
ID登録 | ||||||
ID登録 | 10.15055/00000880 | |||||
ID登録タイプ | JaLC | |||||
著者 |
小野, 芳彦
× 小野, 芳彦 |
|||||
著者別名 | ||||||
識別子Scheme | WEKO | |||||
識別子 | 18736 | |||||
姓名 | ONO, Yoshihiko | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 旧字体で印刷された文書などをOCR(光学文字認識装置)で読み取った場合の誤認識を、人手の後編集の前に自動的に訂正するプログラムを開発した。 | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 日本語の漢字かな交じり文の印刷文書を、現在のOCRは99%以上の精度で読み取るとされている。悪条件下でも、現代フォントの活字ならば95%は正確に読み取るが、旧字体の活字では正読率は80%に満たない。本プログラムはこの状況を改善することを目標としている。 | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 本プログラムは、OCRの入力と、その人手による編集結果を比較して、どういう読み誤りをするかの知識を抽出集積して、それを自動的な訂正コマンドに作り上げるものである。実験によると、正読率80%弱のテキストに本プログラムが抽出した自動訂正コマンドをかけると、約10ポイントの向上があり、実質正読率90%に達することがわかった。 | |||||
書誌情報 |
日本研究 巻 9, p. 182(1)-173(10), 発行日 1993-09-30 |
|||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 09150900 | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AN10088118 | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||
その他の言語のタイトル | ||||||
その他のタイトル | A Computer Utilization on Humanities III : Improvement of OCR Recognition of Documents Printed in Old-fashioned Japanese Fonts | |||||
出版者 | ||||||
出版者 | 国際日本文化研究センター | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | OCR | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 旧字体 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | SED | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 文字列処理言語 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 正読率 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 後編集による改善 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 自動差分検出 |