ニュース

富士通、歩き方の映像から人物を照合・特定する技術

富士通は、顔などの情報が写っていない映像からでも、人の歩き方(歩容)をもとに人物を高精度に照合できる歩容照合技術を開発した。

開発した技術は、照合時に使用するカメラ映像内の人のサイズや歩く位置などの条件が、学習時の映像データと異なる条件であっても正確に照合を可能にする、汎用的に適用可能な深層学習モデル。事前に取得した人物映像から得られる歩容情報の登録時と、新たに用意した人物映像を入力する照合時の2段階で構成される。

登録時は、人の複雑な行動を認識する同社のAI技術「行動分析技術 Actlyzer(アクトライザー)」の姿勢推定技術を用いて、人の関節点の移動における時系列情報を抽出。得られた関節点の時系列情報は人のサイズや歩く位置などの条件が様々であることから、それらをサイズや位置によらず汎用的に照合可能な空間に投影して関節点情報を変換する。

変換された時系列の関節点情報から、カメラ映像内の人物特有の歩容の情報である歩容特徴量を抽出し、歩容特徴量データベースに登録する。

照合時は、新たに入力された人物映像に対して、登録時と同様に、汎用的に照合可能な空間に投影して変換された関節点情報から歩容特徴量を抽出。あらかじめ登録した人物映像の歩容特徴量と、新たに入力された人物映像の歩容特徴量との類似度を比較することで、人物を照合する。

従来の技術には、照合時に使用するカメラに映る人のサイズや歩く位置などのデータが学習時と異なると、照合精度が低下するという課題があったという。今回の技術では、人の関節点の座標から姿勢を推定する汎用深層学習モデルと、汎用的に照合可能な空間への変換により人物を照合しやすくする同社の独自技術を組み合わせることで、この課題を解決し、顔などの情報を必要とせずに高精度に人物を照合可能とする。

汎用的に照合可能な空間とは、人の関節点座標について、映像中の人のサイズや位置などの差異による影響を取り除いた、データの特徴が正規化された座標空間のこと。

同社事業所で約1,700人を対象に収集した複数のカメラ映像(ゲート通過、廊下移動など)から作成した大規模なデータセットで開発技術を評価。カメラ映像に映る人のサイズや歩く位置が異なる場合、これまでの技術では50%未満の精度だったが、今回の技術では約90%の高い精度で人物を照合できたという。

今後は、例えば迷子や高齢者の捜索の際に、過去に保護者や家族がスマートフォンなどで撮影した対象者の歩容が分かる映像をもとに、駅や空港、商業施設、公共機関などに設置されたカメラ映像から歩容の類似度が高い人物を特定するなどの実証に取り組み、2023年度の実用化を目指す。