ニュース
Anthropic、中国AI企業による蒸留攻撃を公表 安全保障上の対応を要望
2026年2月24日 12:08
Anthropicは23日、DeepSeek、Moonshot、MiniMaxなどの中国のAIモデル各社により、Claudeの機能を不正に抽出する蒸留攻撃を検出していると発表した。これらの研究所は、約2.4万の不正アカウントを通じてClaudeと1,600万件以上のやり取りを生成し、Anthropicの利用規約や地域アクセス制限に違反したという。
攻撃は蒸留(distillation)と呼ばれる技術を使用したもので、より高性能なモデルの出力により、能力の低いモデルを訓練する手法。蒸留自体は、広く使用される正当な訓練方法だが、これらの競合他社は、独自開発に要する時間やコストの一部で、他研究所の強力な能力を獲得できるようになるという。
こうした攻撃への対応は難しく、脅威は単一企業や地域を超えるほか、違法に蒸留されたモデルには必要な安全対策が欠如することから、Anthropicでは「重大な国家安全保障上のリスクを生む」と説明。業界関係者、政策立案者、グローバルAIコミュニティにおいて、「迅速で協調的な行動が求められる」としている。米国が推進する輸出管理においても、こうした対策が求められると強調している。
Anthropicによれば、DeepSeekは15万回以上のClaudeとのやり取りを行ない、推論能力の抽出だけでなく、Claudeの応答の内部推論を想像・言語化させ、段階的に記述させることで、思考の連鎖(chain-of-thought)トレーニングデータを大規模に生成していた。さらに、反体制派・政党指導者・権威主義に関する政治的に敏感なクエリに対し、検閲回避代替案を生成するタスクも確認されたという。
AIモデルのKimiを展開するMoonshot AIからは、340万件以上のやり取りが確認され、主体的推論とツール利用、コーディングとデータ分析などについて、数百の不正アカウントから組織的に実行されていたという。MiniMaxからは、1,300万件以上のやり取りが確認されている。
Anthropicは、国家安全保障上の理由から、中国と中国国外にある企業子会社に対してClaudeの商用アクセスを提供していないが、これを回避するために各社は商用プロキシサービスを利用。APIやサードパーティのクラウドプラットフォームにトラフィックを分散させ、不正な利用を試みているという。
Anthropicは、こうした蒸留攻撃について対応を続けているが、この問題は「単独では解決できない」としており、AI業界、クラウドプロバイダー、政策立案者による協調的な対応が必要と訴えている。
