ニュース

ソフトバンクとAmpere、CPUのAI推論活用で共同検証

臼田勤哉

2026年2月17日 17:35

ソフトバンクは、米国の半導体設計企業Ampere Computingと、GPUを活用したAIモデルの運用効率化に向けた共同検証を開始した。Ampereは25年にソフトバンクグループが約65億ドルで買収している。

次世代AIインフラに向けた共同検証で、ソフトバンクが開発する、計算資源の管理やAIモデルの最適な配分を行なうオーケストレーターと、AIの推論処理向けに設計されたAmpere製のCPUを活用し、CPUを「AI推論用の計算資源」として利用できることを確認した。

AIエージェントなどで利用されるSLM(Small Language Model：小規模言語モデル)やMixture of Experts(MoE)などの推論モデルをCPU上で実行することで、AIモデルの運用を最適化し、計算資源の利用効率の向上を実現できるという。

CPUのみを搭載したノードや、CPUとGPUを搭載したノードなどのマルチノード環境を前提として、オーケストレーターに最適な配分制御機能を実装。ユースケースや計算処理の負荷などの特性に応じ、AIモデルを柔軟に配置・管理し、最適化できることを確認した。また、オープンソースのAI推論フレームワーク「llama.cpp」をベースに、Ampere製のCPU向けに最適化した「Ampere optimized llama.cpp」を実装し、一般的なGPUベースの構成と比較して、消費電力を抑えながら同時実行可能数を増加できることを確認できたという。AIモデルの読み込み時間も大幅に短縮し、モデルの高速な切り替えも可能としている。

両社は今後、AIエージェント向けに複数のモデルを動的に切り替えながら、TPS(Tokens Per Second：1秒当たりのトークン出力数)を安定的に維持できるAI推論プラットフォームの実現に向けた取り組みを進める。ソフトバンクは、Ampereとの協業により、AIインフラの要素技術の一つとして、低遅延かつ高効率なAI推論環境の確立を推進。AIエージェントやSLMのさらなる活用を目指す。