ニュース

映像から判断するAIで自動運転 チューリングが公道で実証

Turing(チューリング)は、自動運転向けフィジカルAIのVLA(Vision-Language-Action)モデルにおいて、国内で初めて公道でのリアルタイム制御と走行を実現した。同時に、因果推論データセット「RACER」、画像トークナイザ「DriveTiTok」を公開した。開発はNEDOの生成AI研究支援(GENIAC)の一環として行なわれ、一部成果は公開されている。

VLAモデルは、カメラから取得した視覚情報と言語による状況理解を統合し、車両の操舵・加減速に相当する運転行動を予測・出力する。画像やセンサーから得られるデータを中心に学習した従来のEnd-to-End自動運転モデルとは異なり、言語モデルを基盤とした統合的な意思決定アーキテクチャを採用している点が特徴になる。

チューリングは、約20億パラメータ規模のVLAモデルを独自に学習し、車載計算機環境に最適化することで、公道における自動運転制御を実現。10Hz(毎秒10回)でのリアルタイム推論と車両制御を同時に行ない、実環境での安定した自動運転性能を確認した。

チューリングは2023年から一貫して、LiDARなどのセンサーを使わず、言語モデルを基盤とした自動運転技術の研究開発に取り組んでおり、今回の成果はその延長線上に位置付けられる。今後は国産のフィジカルAIの実現に向けて、技術開発と社会実装を加速する。

「RACER(Rationale-Aware Captioning of Edge-Case Driving Scenarios)」は、VLAモデルの高度化に不可欠な因果推論能力の強化を目的として構築した因果推論データセット。

運転判断の根拠を因果構造に基づいて記述したもので、AIが運転操作の判断根拠を理解し、より適切な行動を生成するための学習基盤になる。今回その一部を「RACER-Mini」としてHugging Faceで公開している。

「DriveTiTok」は、運転シーンの映像を離散トークンに変換し、約1/100まで圧縮する画像トークナイザ。過去フレームの情報を活用しながら時間的な変化とシーン全体の文脈を統合的に捉えることで、運転判断に必要な視覚情報を保持したまま効率的な圧縮を実現する。今回は学習済みモデルをHugging Face上で公開している。