ニュース

NTT、クルマと対話できるドライブパートナーAI。風景で会話

実際に発生した対話

NTTは、クルマから見える景色を話題として、パートナーのように知識応答や共感応答をする対話AIを開発した。

従来の対話システムは、話者の発話から得られるテキスト情報のみを入力とすることが多く、その周囲のリアルタイムな画像情報や位置情報などを取り込むことはできなかった。新開発された対話AIでは、NTTが構築した深層学習に基づく大規模テキスト対話モデルを、ドライブ中の対話データ・周辺情報データを用いて追加学習。景色として見える画像情報や関連する外部知識に基づいて自然な対話を実現した。

たとえば、道路沿いにカフェがみえた場合、対話AIが自発的に「おしゃれな雰囲気のカフェだなあ」などドライバーに話しかけ、それに応答することで自然な会話を実現できるという。

NTTはまず、超大規模Web対話データ・高品質対話データと、深層学習技術(Transformer Encoder-decoderモデル)を組み合わせることで、日本語最大規模の「対話モデル」を構築。ルールや係り受け関係などの統計情報に基づく従来のモデルに比べ、抜本的に異なるレベルで複雑な文脈の理解や自然な発話の生成を実現可能とし、雑談AIの性能を競う対話システムライブコンペティション3でも圧倒的な成績で優勝するなどの成果を挙げたという。

また、検証・評価目的に限定して対話モデル・対話データを無償公開しており、構築したモデルの幅広いフィールドでの効率的な検証を進め、日本語対話AI研究の地位向上にも寄与している。

ただし、構築した対話モデルは、テキスト情報のみを対象としているため、テキストに閉じた対話では自然な雑談が可能なものの、人間の周辺の状況に即した対話は難しい。これに対し、画像内の物体情報と自己位置周辺のスポット情報を大規模対話モデルに導入する技術を開発。画像内に映っている物体について、物体検出と呼ばれる技術を使うことで抜き出し、大規模対話モデルで扱える数値情報(埋め込みベクトル)に変換して入力する。

スポット情報については、自己位置地殻のレストラン等のスポットに関する情報(ジャンル・名称等)をテキスト形式で取出し、対話の文脈と同様の形式で入力する。これらにより、クルマから見える周辺の状況も組み込んだ会話を可能にしている。

ドライブ中の自己位置は常に変化するが、対話AIは、人がどの時点の画像やスポット情報を話題としているかを理解しつつ、新規に入力された情報にも適切なタイミングで触れながら対話する必要がある。今回の対話AIでは、対話文脈からの話題画像推定と、逐次的に入力される画像に対する発話の話題強度の推定技術を開発し、適切なタイミング制御に組み込むことで課題を解決した。これによりユーザーの発話に自然に応じながら、ユーザーが強く興味を惹かれるであろう情報を適切なタイミングで提供する、新感覚のドライビング・パートナーとなる対話AIを実現したという。

今後は、日常的なドライブのパートナーをめざして、繰り返される対話への適用や、外部知識のさらなる利用に取り組む。また、長距離運転時の居眠り運転・漫然運転の防止や、自由な会話で検索可能な音声ナビゲータの実現をめざし、実車・VR等での実証実験も進める。