ニュース

Turing、視覚を生成AIに加える学習ライブラリ「Heron」

自動運転EV開発のTuring(チューリング)は7日、日英言語対応のマルチモーダル学習ライブラリ「Heron(ヘロン)」と最大700億パラメータの大規模モデル群を公開した。

Turingでは、高度な自動運転を実現するため、視覚情報によって得られた情報を、人間のように言語化して高度な文脈を理解できるAIモデルを開発している。今回公開したマルチモーダルモデルの学習技術と知見を活かし、完全自動運転にむけた開発を進める。

マルチモーダルとは、画像やテキスト、動画など複数の形態(モーダル)があること。大規模言語モデル(LLM)では、大量のテキストデータを学習に用い、広範な知識の獲得や人間のような応答が可能だが、LLMは一般的にその入力と出力はテキストに限定され、画像などの視覚情報を用いたタスクに直接適用できないという課題がある。

例えば、「洗面台に横たわる猫」の写真に対し、「この画像の面白い点は何ですか?」という質問に答えるためには、画像と言語の双方を入力情報として扱う必要があり、こうした入力に対応するために「マルチモーダル」が必要となる。

マルチモーダルモデルの構造と応答例

Turingが公開したマルチモーダルモデルは、画像認識用に事前学習された「画像エンコーダ」部分と「大規模言語モデル」部分、その間をつなぐ「アダプタ」部分から構成される。アダプタ部分を学習した後、画像エンコーダと大規模言語モデルも追加学習することで、全体として画像に何が写っているかを正確に把握しながら、言語モデルの知識を利用して回答できるという。

日本語マルチモーダルモデルの応答例

マルチモーダル学習ライブラリ「Heron(ヘロン、アオサギの英名)」は、画像認識モデルと大規模言語モデルを接続し、各モジュールを追加学習するための学習コード、日本語を含むデータセット、学習済みのモデル群で構成。対話を含むデータセットを用いることで、自然かつ適切な対話が行なえるという。また、従来のマルチモーダルモデルでは単純な回答しかできなかった複合的な画像-言語タスクにおいて、詳細で自然な文章生成が可能となり、前の質問を含む文脈を理解して応答できる。

学習用ライブラリは、学習する大規模言語モデルを自由に変換可能で、今後開発・公開される新たな大規模言語モデルに対しても対応できるという。ライブラリのソースコード部分は研究・商用利用が可能なApache License 2.0で公開している。