ニュース

TOPPAN、"くずし字"解読応用で中世ギリシャ語を読めるAI-OCR

TOPPANホールディングスは、一般には読み取りが困難とされる中世ギリシャ語の解読が可能なAI-OCRエンジンを開発した。

古い文書には、歴史的に貴重な史実や地域文化に関する多様な情報が記録されている一方で、その多くは現代人にとって判読が難しい手書き文字で書かれている。

TOPPANはこれまで、日本の歴史的資料の研究を支援するため、現代人には判読困難な「くずし字」で書かれた古文書の解読に関する取り組みを行なっており、2015年には、AI画像認識技術を活用して「くずし字」を解読する「くずし字OCR」の研究開発を開始している。今回の取り組みでは、こうした知見を活用することで、中世ギリシャ語の解読を可能にした。

中世ギリシャ語は、時代や書き手によって字形が異なるほか、単語の一部が省略される場合や、現代とは異なる綴りが用いられるなど、表記が一定ではないという特徴がある。また、単語と単語の間に区切りを設けずに文章が書かれていることもあり、専門知識のない現代人には読み取りが困難とされている。AI-OCRエンジンでは、100万字規模の字形や行のデータベースを学習データとして用意することで、中世ギリシャ語文字の解読を実現している。

ヴァチカン教皇庁図書館が保有する約5,000点のギリシャ語写本のうち、既に付加情報を加えた50点(IIIF画像約400枚)と翻刻テキストをAIの学習データとして活用。写本画像と翻刻テキストの高精度な学習に加え、専門家による目視確認も組み合わせることで、解読精度の向上と品質担保を両立した。これにより、膨大なギリシャ語写本コレクションのテキストデータ化を加速させるとともに、AI-OCRエンジンにおける中世ギリシャ語文字の認識精度95%以上の達成を目指す。

なお、今回の成果は、4月25日から印刷博物館で開催される企画展「名著誕生展 ヴァチカン教皇庁図書館III+」でデモンストレーションを行なう予定。