ニュース

2.2億枚の国会図書館資料をLINE「CLOVA OCR」でテキスト化完了

清宮信志

2022年9月7日 12:23

LINE AI カンパニーは、国⽴国会図書館が保有するデジタル化資料247万点、2億2,300万画像を対象とした「デジタル化資料のOCRテキスト化」作業を受託し、「CLOVA OCR」の技術によるモデル開発を実施。全⽂のテキストデータ化を完了した。

CLOVA OCRは、書類・画像に記載された⽂字等の情報をテキストデータへ変換するサービス。横書きや縦書きだけでなく、丸く湾曲して書かれた⽂字や傾いた⽂字などの悪条件下でも読み取りが可能。

今回テキストデータ化を⾏なったデジタル化資料の多くは昭和前期以前の資料で、レイアウトも複雑なため、既存のOCRでは必要な精度に達しないことや、2億2,300万枚を超えるデジタル化資料の処理に時間を要する点が課題だった。

同社のAI-OCRモデル研究開発チームは、CLOVA OCRの技術を元に、本プロジェクト⽤のOCRモデルを開発。CLOVA OCRは、現代の書籍や⽂章、⾔葉・記号の⽤法に最適化されているモデルのため、今回のモデル開発では⽂字サイズや字間・⾏間が不揃いな書籍や、本⽂と⾮本⽂(ルビ等)、書籍内のインク汚れや透けて⾒えている⽂字、右読みの⽂章など、昭和前期以前の資料特有の点についてチューニングを⾏なった。

これにより、全33区分中、1970年代に出版された雑誌資料を除く32区分で国⽴国会図書館の⽬標値よりも⾼い認識性能を発揮するモデルが完成、全⽂テキストデータ化に寄与した。改善結果や本プロジェクト結果の詳細については、国⽴国会図書館がNDLラボで公開している。