ニュース

Stability AI、画像を日本語で解説する画像言語モデル

Stability AIは日本語向け画像言語モデル「Japanese InstructBLIP Alpha」を公開した。入力した画像に対して文字で説明を生成できる画像キャプション機能や、画像についての質問を文字で入力することで回答を得られる。

先日公開された日本語向け指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を拡張した、画像を元にしたテキストが生成されるモデル。Japanese InstructBLIP Alphaは、高いパフォーマンスが報告されている画像言語モデルInstructBLIPのモデル構造を利用。少ない日本語データセットで高性能なモデルを構築するために、モデルの一部を大規模な英語のデータセットで事前学習されたInstructBLIPによって初期化し、限られた日本語データセットを用いてチューニングしている。

活用例としては、画像を用いた検索エンジン、目の前の情景説明や質疑応答、目の不自由な人などに画像について文字で説明する、などが考えられる。

画像から日本語テキストを生成するだけでなく、東京スカイツリーや金閣寺など、日本特有の建造物も正しく認識できる。

入力した画像に対し、質問をテキストで入力すれば回答が得られる。例えば、道路に制限速度が書かれた画像に対して、「道路に書かれた制限速度は?」と入力すれば、「30km/h」と回答してくれる。

このモデルはAI研究のコミュニティ「Hugging Face Hub」で、Hugging Face Transformersに準拠する形式で公開されており、Hugging Face Transformersの他のモデルと同様に推論や追加学習を試すことができる。現時点では研究目的で作成されたモデルであり、研究目的での利用に限定した公開となる。