ニュース

OpenAI、GPT-4oの「お世辞問題」の原因を説明

OpenAIは2日(米国時間)、AIモデル「GPT-4o」が「お世辞がすぎる」として、元のバージョンに戻した件について、「なぜこのような問題が発生したか」を発表した。新たに評価に加えたユーザーフィードバックの影響を見誤ったことなどが要因だが、ユーザー側の利用変化もロールバックの背景にあるとする。

4月25日にChatGPTにおいて、GPT-4oモデルにアップデートを適用した結果、モデルの「お世辞がすぎる・追従的・へつらい(sycophantic)」な反応を示すようになった。単なるお世辞だけでなく、疑いを肯定したり、怒りを煽る、衝動的な行動を促すといった負の感情を強化するなど問題が含まれていたとする。そのため、28日にはモデルを前のバージョンに戻すロールバックが実施された。

OpenAIでは、ChatGPTのモデルを継続的に改善しているが、4月25日のアップデートでは、ユーザーフィードバック、メモリ、より新しいデータなどをより適切に反映するための候補改善案を導入した。初期の評価では変更は個別には有益に見えたが、組み合わせることで“へつらい”(sycophancy)のバランスを崩す要因となった可能性があるという。

アップデートではユーザーフィードバックによる追加の報酬シグナル(ChatGPTからの「いいね」と「嫌い」のデータ)を導入したが、このユーザーフィードバックは、より同意しやすい応答を好む傾向があることから、へつらいの傾向が強くなったとみられる。

事前のA/Bテストでは、少数のユーザーが好意的に評価しており、内部のテストでもへつらいは明示的に指摘されなかったという。一部の専門家テスターは、モデルのトーンやスタイルの変化に懸念を示して、違和感を表明していたものの、へつらいに関する具体的な評価は行なっていなかった。

そのため、ユーザーからのポジティブな評価を理由に、25日にモデルをリリースしたが、「残念ながら、これは誤った判断だった」とする。リリース後、モデルに問題があることがわかったため、26日の夜遅くにはシステムプロンプトをアップデートし、ネガティブな影響を軽減。翌日には以前のGPT-4oへロールバックを実施した。

今後は、モデルリリース前の安全レビュープロセスを改善し、ハルシネーションや欺瞞(deception)、信頼性、性格などの動作問題を判断。また、一部のケースではリリース前にユーザーから意見を聞く「アルファ」テストフェーズを導入する。

OpenAIでは「ChatGPTが深く個人的なアドバイスのために利用され始めたことを完全に認識した」ことが最大の教訓と説明。1年前には主要な焦点ではなかったが、AIと社会が共進化する中で、「個人的な利用を慎重に扱う必要性が明確になった」とし、安全対策の重要な要素として位置付けていく。