ニュース

東大松尾研、日本語・英語対応のLLM「Weblab-10B」 100億パラメータ

東京大学松尾研究室は18日、日本語と英語に対応した100億パラメータサイズの大規模言語モデル(LLM)「Weblab-10B」を事前学習と事後学習(ファインチューニング)により開発し、モデルを公開した。

近年の大規模言語モデルは、インターネットから収集した大量のテキストデータを学習に用いているが、そのデータの多くは英語を中心とし、日本語のテキストデータの大量収集は限界がある。Weblab-10Bでは、日本語だけでなく英語のデータセットも学習に用いることで学習データ量を拡張し、言語間の知識転移を行なうことで、日本語の精度を向上したという。

事前学習には代表的な英語のデータセット「The Pile」と、日本語のデータセット「Japanese-mC4」を使用。事後学習(ファインチューニング)には、Alpaca(英語)、Alpaca(日本語訳)、Flan 2021(英語)、Flan CoT(英語)、Flan Dialog(英語)の5つのデータセットを使用した。事後学習の日本語データ比率が低いにも関わらず、日本語のベンチマークであるJGLUE評価値が事前学習時と比べて大幅に改善(66→78%)し、言語間の知識転移を確認したという。この精度は、「国内オープンソースモデルとしては最高水準」としている。

松尾研では今後、Weblab-10Bのさらなる大規模化を進めるとともに、LLMの産業実装に向けた研究を推進していく。