ニュース

NTT、深層学習の再学習コストを削減する「学習転移」 世界初

基盤モデル更新時の学習高速化

NTTは、深層学習において過去の学習過程をモデル間で再利用する新たな仕組みとして「学習転移」技術を実現した。

ニューラルネットワークのパラメータ空間における高い対称性を活用し、過去の学習過程のパラメータ列を適切に変換することで、新たなモデルの学習結果を低コストで求めることを可能にする。これにより、生成AIなど大規模な基盤モデルを用途毎に追加学習(チューニング)して利用する場合に不可欠な、基盤モデルの定期的な更新に伴う再チューニングコストを大幅に削減できる。生成AIの運用容易化や適用領域拡大、消費電力の削減に貢献することが期待されるという。

学習転移の概要

生成AIを企業や組織内の要件に対応するため、個々のデータセットで追加学習することで基盤モデルをチューニングして活用することが一般的となっているが、チューニングは必要に応じて再学習が必要で、これには多大な計算コストが必要になる。例えば、基礎性能の改善等の対応により基盤モデル自体が更新されると、それをチューニングして得られたモデルすべてを再チューニングする必要がある。また、基盤モデルそのものを変更しようとした場合にも、移行先の基盤モデルで再度チューニングが必要になる。

一般に深層学習では、与えられた訓練用のデータセットに対して、ニューラルネットワークモデルのパラメータを逐次的に最適化することで学習が行なわれる。学習中のパラメータ変化に関する履歴はモデルの学習過程と呼ばれ、学習の初期値やランダム性に大きく影響される。一方で、初期値やランダム性の異なるモデル間の学習過程がどのように相違・類似しているかは解明されておらず、活用されていなかった。

NTTでは、ニューラルネットワークのパラメータ空間にある高い対称性に着目し、特に置換変換と呼ばれるニューロンの入れ替えに関する対称性の下で、異なるモデル間の学習過程同士を近似的に同一視できることを発見。過去の学習過程を適切な置換対称性によって変換することで、新たなモデルの学習過程として再利用できる「学習転移」技術を世界で初めて提唱し、実証した。

置換変換による対称性

学習転移では、高コストな学習を行なうことなく、低コストな変換のみにより一定の精度を達成することが可能。学習転移後に追加の学習を行なうことで、目標精度に早く収束することも確認できた。

これにより、NTTが研究開発を進める大規模言語モデル(LLM)「tsuzumi」をはじめとした基盤モデルの運用コスト削減・環境負荷軽減や、多数のAIで議論することで多様な解の創出をめざしたAIコンステレーションの構想具現化など、次世代のAI技術開発に貢献するとしている。