ニュース

国会図書館、官庁出版物30万点をNIIに提供 LLM構築に活用

国立国会図書館は、官庁出版物のデジタル化画像からOCR技術により作成した全文検索用テキストデータを、国立情報学研究所(NII)に提供することに合意したと発表した。提供されたデータは、NIIが進める大規模言語モデル(LLM)の構築における学習用データとして活用される。

対象となるのは、1995年までに刊行された図書のほか、雑誌や官報なども含めた約30万点。今回の取り組みは、1995年4月19日に締結された「国立国会図書館及び学術情報センターの相互協力に関する協定」に基づくもの。国立国会図書館では、過去にも多様な学術研究支援や情報提供の分野でNIIと連携を行なっており、今回は生成AIの基盤となるLLMの開発支援として新たな形での協力となる。

NIIは2024年4月に「大規模言語モデル研究開発センター(LLMC)」を設立し、独自の大規模言語モデルの研究開発を進め、国産LLMの構築に注力している。