トピック

5G+エッジ+AIが働き方を変える。MWCと書き起こしアプリに見る5Gの世界

MWC19 Barcelona会場である、バルセロナのFira Grand Vira

2月24日から3月1日まで、筆者はスペイン・バルセロナにいた。モバイルに関する業界イベントである「MWC19 Barcelona」に参加するためだ。

筆者はITや家電をフィールドに取材しているが、MWCには縁が薄く、取材に行けていなかった。今年はマイクロソフトが「HoloLens 2」を発表したこともあり、ようやくじっくりとMWCを取材することができた。

会場の熱気はすさまじい。直接比較するのが難しい部分もあるが、CESに勝るとも劣らない。5Gがどう評価され、どう盛り上がりつつあるかを改めて確認できて、いい取材になったと思っている。

会場にはとにかく「5G」の2文字が躍る。日本ではまだ先という印象を受けるかも知れないが、世界はすでにすっかり「5Gモード」だ

さて、今回話そうと思っていることは、それとは関係なさそうで、実はけっこうある、というお話。

まずは、CESあたりから、英語での取材に使っている「自動書き起こしアプリ」の話をしたいと思う。

え、なんでそれがMWCと関係あるの? と思うだろうが、まあまあ、最後までじっくりお読みいただければ、と思う。

英語での取材を劇的に変えた「Otter」

海外取材をこなすテック系ライターの中で、急速に流行りつつあるサービスがある。名前は「Otter」。英語でカワウソのことなのだが、それとはあまり関係ない。簡単に言えば、英語の「リアルタイム書き起こしツール」である。

写真は、MWC中に、ナイアンティックのジョン・ハンケが行なった講演を書き起こしたものである。アプリを立ち上げ、録音ボタンを押して放置すればOK。リアルタイムに音声からテキストへの変換が行われていく。ちなみに、通信は必須。通信ができないとテキスト化は行なわれない。

Otterで処理中のスマホ。これは記事化のために聞き直している最中のもの。実際に録音中には、リアルタイムで音声がテキスト化されて行く様子が見える

このサービスのすごいところは、周囲にノイズがはいっても、ほぼ問題なくテキスト化してくれる上に、おおまかに話者も見分けてくれることだ。例えば壇上で2人の人物が話しているとか、インタビューなどの場合にも、きちんと話者は分けてテキスト化される。

画面では「John Hanky(ジョン・ハンケ)」と話者が表示されているが、そこまで自動でやってくれるわけではないので、その点は注意を。名前はあとから自分で入れたものだ。ただし、1つ名前を入れれば、同じ会話の中で「同じ話者と思われるところ」には自動的にその話者の名前が入るので、整理はとても簡単だ。

Otterでの処理画面。話者の名前が入っているが、これは後でタグを追加したもの。複数話者が出てくる講演やインタビューの処理に役立つ

データはクラウドに保存されており、PCからはウェブ経由でアクセスできる。もちろん、同じアカウントでログインすれば、他のスマホやタブレットのアプリからでもいい。

このアプリが、取材者にとって便利でないはずがない。

まずなにより、「すべてを正確に記録するためのメモ」から解放される。メモは印象や大事に思ったことだけを残すことに注力できるのはありがたい。内容に不安があったところもあとから確認ができる。インタビューの書き起こしも不要なので、時間も大きく削減になる。

もちろん、精度は100%ではない。ざっくり、95%くらいかな、というところ。日常的には使わない専門用語や略語、言葉が不明瞭だったところなどではもちろん間違う。だが、それでもいいのだ。同時に録音もされていて、気になるところをタップすれば聞き直しもできるからだ。キーワードで検索し、そこを確認することもできる。

Otterは英語にだけ対応していて、日本語では書き起こしできない。筆者も色々試しているが、日本語の場合、「講演などを安定した音質で録音した場合」にはそれなりの品質でテキスト化できるものがあるが、記者が手持ちの機材(スマホやICレコーダーなど)で録音した、インタビューのようなラフな会話では、まだまだ実用にするのが難しい部分がある。話者の判別もできるものとできないものがあって、一長一短だ。Otterが英語で実現しているレベルのものができれば、仕事のやり方は劇的に変わると思うのだが、それにはまだ時間がかかりそうだ。

5G+エッジ+AIで変わる「人々の働き方」

「で、あなたの仕事がアプリで楽になったのが、MWCとどんな関係が?」

いやいや、けっこうあるのだ。

MWCというイベントは、元々モバイル通信市場を中心としたテクノロジーイベントだった。だが、今年から正式名称を「Mobile World Congress」ではなく「MWC」に変えた。これは、CESが「Consumer Electronics Shows」から「CES」に名称変更し、「広汎なテクノロジーイベントです」と言い始めたのと同じ流れである。実際もはや、通信の関わらないテクノロジー領域など存在しないし、それも当然だと思う。

とはいうものの、MWCは、CESとは性質の違うイベントだ。特に大きいのは、設備やソリューションビジネスを中心とした「B2B」が占める割合が圧倒的に大きい、ということだ。日本でMWCの報道を見ていると、スマホなどのデバイスがたくさん出ているイベント、という印象を受けるかも知れない。だがそれは間違いで、むしろコンシューマ向けの製品展示は全体の2割もないのではないか。モバイル業界は元々「設備産業」の側面が大きく、MWCもモバイル業界内でのコミュニケーションを目的としたイベントから広がってきた側面があるので、実はコンシューマデバイスの比率が、いまでも低いのだ。

では、そんなMWCでの話題は何だったのか? というと、やはりそれは「5G」である。ただ、アンテナや基地局、対応チップセットといったものを提供する企業はもちろん限られているので、多数の企業は「それ以外」で勝負することになる。

なかでも印象に残ったのは、「クラウド」と「エッジ」でのサービスを提案する企業の多さだ。クラウドは今時当たり前だが、5Gになると通信速度が上がるので、より実用性が増す。

「エッジ」ことエッジコンピューティングは、5Gで特に注目度が上がっている領域だ。簡単にいえば、各種の処理を行なうサーバーを「クラウドの向こう」ではなく、携帯電話の基地局や網内に近い場所で行なうものだ。こうすることで、インターネット側に負担を与えることもなく、インターネット側の速度や遅延に足を引っ張られることもなく、5Gの広帯域と低遅延が活用できる。

では、エッジをなにに使うのか? それが、MWCのテーマのひとつだったように思う。

多くの企業が提案したのは、「データを処理するためのフロントエンドをエッジに入れる」ということだった。例えば、スマートシティを実現するための各種センサーの前処理をエッジでやる、といったようなことだ。

中でも、ちょっと面白かったのが楽天の提案だ。

楽天は現在、電波の割り当てを受けての携帯電話事業への参入を検討している。そこで作っているのが、新しい発想によるインフラだ。4G時代まで、携帯電話ネットワークは専用設計の機器の組み合わせで作られる部分が多かった。それを「汎用機器+IPネットワーク+仮想化技術」で代替し、4Gへの投資を抑制した上で、よりインターネットとの親和性が高い5Gに特化したインフラを構築しようとしている。理由は、低コスト化と高効率化だ。

楽天の三木谷浩史社長は、そのネットワーク構築の高度さ・斬新さを「携帯電話業界のアポロ計画と言われている」とアピールした。確かに斬新な発想で、特にPC業界に近い筆者には魅力的に思える。とはいえ、稼働が始まらないと本質は見えてこないもの。その評価を下すには、いまは時期尚早だ。

楽天の三木谷浩史社長。自社の携帯電話ネットワーク立ち上げ直前ということもあり、世界に対しての自社アピールに余念がなかった

一方、彼が言った言葉は、5G+エッジの時代のあり方そのもの、といっても良かった。

「ネットワークの中に、IoTを初めとした色々な機能を組み込める。音声通話にしても、基本的にデジタルでやっているので、リアルタイム翻訳サービスを入れるなど、さまざまなサービスをプラグインできる」

三木谷社長は記者会見でそう述べた。楽天のネットワークではそれがやりやすい、という主張なのだが、これは5G以降、ひとつのスタンダードになる考え方だろう。

いままで、音声ネットワークはあくまで「音声ネットワーク」であり、そこに機能を追加するには、「音声を受けとった端末の側で処理する」のが基本になっていた。今も携帯電話の通話をテキスト化する技術はあるが、それはあくまで「端末のアプリ」でやることだ。だが、基地局とネットワークが汎用端末化し、ネットで構築された様々なサービスを組み込める時代になれば、コミュニケーションのあり方も変わる。

ここで話を、冒頭のOtterに戻そう。

音声テキスト化は、英語ではもう十分に実用的だ。データソースの不足から日本語ではまだ精度が上がってきていないが、近い将来、かならず近いレベルのものが実現する。

そうなると、我々の生活は大きく変わる。電話注文とネット注文の境目はさらに小さくなり、ユーザーサポートの機械化は進み、情報の検索は容易になる。「録音を聞き直してテキストにする」「議事録や取引のメモをデータ化するためにひたすらタイプする」といった単純作業がなくなれば、我々の働き方はどれだけ楽になるだろうか。逆にいえば、そこで機械の力を全力で使う言語をベースとした国と、そうでない国とでは、効率に天と地ほどの差が現れる可能性が高い。

音声認識はあくまで1つの例だ。5Gから始まるネットワーク構造の変化と、「いわゆるAI」である、音声認識・画像認識・データ解析の技術は、人間の手からある種の単純作業を解放するだろう。

一方、まだ機械では判断できないことを、人間が判断しなければいけないシーンは増える(ただし、それが常に高度なこととは限らない。単純な手作業に見えるが機械よりも人間がやった方がいい、という種類の低コスト作業が残る可能性は非常に高い)。

そうした事実を認識した上で、我々は5Gを迎えなければいけないのではないか。

そんなことを、OtterでMWCの取材データをテキスト化しながら、考えざるを得なかった。