ニュース

コンピュータ操作が人間レベルに 「Claude Sonnet 4.6」公開

Anthropicは17日(米国時間)、最新の主力AIモデルとなる「Claude Sonnet 4.6」を提供開始した。コーディング、コンピューター操作、長文脈推論、エージェント計画、知識作業、デザインなど、モデルのスキルを全面的にアップグレードした。また、ベータ版としてコンテキストウィンドウを100万トークンまで拡大している。

Claude.aiとClaude CoworkのデフォルトモデルはSonnet 4.6となる。デベロッパーもすぐにAPIでclaude-sonnet-4-6が利用可能で、価格はSonnet 4.5と同様で、100万トークンあたり3ドル/15ドル。

Sonnet 4.6では、コーディングスキルが大幅に向上。ロングコンテキストの推論や指示の順守などが改善されており、早期利用者の中には25年11月発表の上位モデルOpus 4.5よりもSonnet 4.6を好むケースもあるという。また、2週間前にリリースされた最上位のOpus 4.6との比較でも、「経済的価値のあるオフィス業務」においては上回っているという。

また、Sonnet 4.6では特にAIにおけるコンピューター使用スキル(Computer use)が大幅に改善された。コンピューター使用能力を測定するベンチマーク「OSWorld」では、Sonnet 4.6は人間の基準値と同等のスコアを記録しているとする。

ベンチマーク「OSWorld」においてSonnet 4.6は、Chrome、LibreOffice、VS Codeなど実在のソフトウェアをシミュレートされたコンピューター上で実行し、数百のタスクを実行する。特別なAPIや専用インターフェースを使わずに、モデルがコンピューターを認識し、人間と同様の方法で操作し、(仮想)マウスをクリックし、(仮想)キーボードで入力する。

人間のテスターのOSWorldスコアは72%だが、Sonnet 4.6は人間の基準値に接近し、到達したという。ClaudeでComputer Useを開始した2024年10月には、「煩雑でエラーが発生しづらい」としていたが、約16カ月で人間のスキルまで追いついたこととなる。

Sonnet 4.6でも「最も熟練した人間には明らかに及ばない」ものの、進歩の速度は急速で、「コンピュータ操作は既に様々な業務タスクで実用レベルに達した」と説明。ただし、コンピュータ操作は、悪意ある攻撃者による「プロンプトインジェクション」と呼ばれる攻撃で、ウェブサイトに指示を隠蔽し、モデルを乗っ取られる可能性なども指摘している。

Sonnet 4.6の性能においては、Computer Use以外のあらゆるベンチマークでも性能を向上し、「ほぼOpusレベルの知能」で「実用的な価格帯」を特徴とする。

Claude Codeでは、ユーザーがSonnet 4.5と比較してSonnet 4.6を約70%の確率で好んでおり、特にコード修正前の文脈理解がより効果的としている。また、Claude Code内のOpus 4.5と比較し、Sonnet 4.6は過剰設計や「怠惰」の傾向が低く、指示遵守能力が明らかに向上していると評価されているという。

Claude Developer Platformでは、Sonnet 4.6が100万トークンコンテキストウィンドウに対応。単一リクエストでコードベース全体、長大な契約書、数十本の研究論文を保持できるほか、コンテキスト全体を効果的に推論できるという。これにより長期的な計画立案能力が大幅に向上している。

APIでは、ClaudeのWeb検索、フェッチツールが検索結果のフィルタリングと処理を自動実行するコードを生成・実行。関連するコンテンツのみをコンテキストに保持し、効率と応答品質を向上させる。また、コード実行、Webフェッチ、メモリ操作、プログラムツール呼び出し、ツール検索などが一般提供開始される。

Claude in Excelでは、アドインがMCPコネクタをサポート。日常使用する他ツールと連携可能となり、Excelを離れることなく外部スプレッドシートからコンテキストを取得できるようになる。Claude.aiでMCPコネクタを設定済みの場合、同じ接続がExcelで自動的に有効化される。Claude in Excelの新機能は、Pro/Max/Team/Enterpriseプランで有効となる。