ニュース

NICT、日本語特化の大規模言語モデル試作 400億パラメータ

情報通信研究機構(NICT)は、日本語に特化したAI生成系の大規模言語モデル(LLM)を開発したと発表した。さらに大規模な言語モデルの学習も実施中で、民間企業を含め研究開発や活用に取り組んでいくとしている。

NICTは今回、Webから収集した350GBの日本語テキストを用いて、400億パラメータの生成系の大規模言語モデルを開発した。従来から利用していた高品質な日本語テキストを事前学習することで、約4カ月で開発している。学習の完了を優先させたため、ファインチューニングや強化学習は未実施で、性能面や洗練されていない日本語表現などでChatGPTなどと比較できるレベルではないとする一方、日本語でのやり取りが可能な水準には到達しているという。今後は、ポジティブ、ネガティブの両方の要素で改善を図っていくほか、人手により作成した学習データも用いながらファインチューニングを行ない品質も高めていくとしている。

NICTの日本語大規模言語モデルプロトタイプの動作例。白字が生成文。3つ目の質問は、NICTが開発中の著作権侵害の検出を容易にする自動検索ツールが、生成されたテキストと類似する文を学習データ中で見つけた場合の動作例

NICTではこれまで、偽情報やバイアス、各種悪用リスクなどの懸念から、生成系言語モデルの開発は基礎研究にとどめていたが、ChatGPTの登場で生成系言語モデルが大きく注目されるようになり、ほかの分野にも影響を及ぼしていることから、日本における開発力強化が課題になっているとして本格的な取り組みを始めている。

今後は学習用テキストについて、日本語を中心に大規模化していく方針。現在、OpenAIのGPT-3と同等規模の1,790億パラメータの生成系大規模言語モデルの学習を実施中で、適切な学習の設定などを探索していく。

加えてNICTでは、誰も考えておらずWeb上にも書かれていない“具体的で尖った”将来シナリオや仮説をテキストで生成し対話システムで活用する研究も実施しており、そうした研究でも今回開発した日本語の大規模言語モデルを活用する予定。