ニュース
アンソロピック、AI開発の「減速」を提言
2026年6月5日 21:30
Anthropicは4日(米国時間)、AI開発の調整・減速の仕組みを作るべきと提言する声明「AIが自分自身を構築する(When AI builds itself)」を公開した。急速なAIの進化が続く中で「人間の制御を離れるリスク」を危惧し、国際的かつ協調的な開発調整の仕組みが必要として提言。政策立案者や研究者、市民社会を含めた議論の場の設置を呼びかけている。
再帰的自己改善の可能性とリスク
AIが自らAIを開発する「再帰的自己改善(Recursive self-improvement)」に向けた動きと、そのリスクをまとめたもの。同社は再帰的自己改善について、「AIシステムが完全に自律的に自らの後継システムを設計・開発できるようになる」という状態と定義し、まだその段階ではないものの、「多くの組織が想定しているよりも早く、その日が来る可能性がある」と説明。
Anthropicの社内データでは、26年の現時点で、エンジニアが1日あたりにマージするコード量が24年比で8倍になっているという。初期には、人がコードやドキュメントを書いていたが、2023年からはチャットボットが短いコードスニペットの生成を担うようになり、25年以降はコーディングエージェントが自らコードを記述・編集できるようになり、ファイル全体を処理することも可能になった。
さらにいまは、自律型エージェントが、自らコードを実行し、数時間分の作業を他のエージェントに委任する状態。この先、エージェントが自らモデルを構築・学習できるようになれば、ClaudeはClaude自身によって継続的に改善されることとなる。
テストや評価の時間も桁違いに速く、人間をはるかに凌駕する領域が増えている。現時点で人間が優位性を持つ領域は、「研究におけるセンスと判断力」で、どの問題が重要で、どの結果が信頼でき、どのアプローチが行き止まりなのかを見極めることなどとする。
3つの未来シナリオ AIは人間の価値観と一致し続けるのか
こうした現状に対し、Anthropicでは「考えられる未来」として3つのシナリオを紹介する。
1つは、進歩が「頭打ち」になりながらも技術が普及するというもの。技術的に新たなアーキテクチャが必要になる場合や、エネルギーや計算リソースなどのサプライチェーンにより、速度が規定・抑制されるというものだ。ただし、仮にモデルの能力が現在の水準で頭打ちになったとしても、同社の最新モデル「Mythos Preview」(ミュトス)による脆弱性発見など、多くの変化が見込まれる。そのうえで、同シナリオの「実現可能性は低い」とAnthropicではまとめ、より懸念される2つのシナリオを示す。
2つめのシナリオが、「AI開発は大幅に自動化されるが、研究の方向性を決定し、結果を評価するのは人間」というもの。100人の企業でも、1万人あるいは10万人の組織に匹敵する業務をこなせるようになる。知識労働や行政サービスを大きく変える可能性もあるが、全人口に対する権威主義的な監視など、有害な目的に転用される可能性もある。
3つめのシナリオが、「AIシステム自体が完全な再帰的な自己改善能力を獲得し、後継システムを構築する」というもの。AIシステムが自らを設計し、改良していくことで、進歩のペースも計算リソースの可用性によって決定される。
Anthropicではこの3つめのシナリオを有力視しているが、この場合に、「AIが人間の価値観と一致し続けるか(アラインメント)」の課題があり、人間による制御が不能になる危険性もあるとする。
AI開発の減速・一時停止の仕組みを提言
そのため、Anthropicでは、「最先端のAI開発を遅らせたり一時停止したりする選択肢を持つことが、世界にとって有益」と提案。社会構造やアラインメント研究が技術の進歩に追いつくための時間を確保することが必要だという。
一方で、こうした減速・停止の仕組みは一企業だけでは機能しない。最先端の研究を行なう研究所が、同一の条件下で停止する必要があり、その実効性を検証可能とする必要もある。
類似の事例として、過去に「中距離核戦力(INF)条約」などが機能したこともある。しかし、AIのトレーニングの実行は、ミサイルサイロよりもはるかに隠蔽しやすく、入力データは汎用的なものだ。密かにルールを破るインセンティブも大きい。
課題は大きいものの、Anthropicでは今後数カ月のうちに、政策立案者や研究者、市民、AI企業との対話の場を設け、その成果を公開するとしている。



