ミニレビュー

リアルタイムで英語文字起こし。Googleの「音声文字変換」が凄い

今年一番驚いたサービス

Googleのアプリ「音声文字変換(Live Transcribe)」が凄い。話している音声をリアルタイムで文字起こししてくれるAndroidアプリなのだが、英語書き起こしの精度が、とにかく素晴らしいのだ。2019年、個人的に一番感動したアプリ/サービスだ。

まずは、Google Next Hubで再生した「Google I/O 2019」の基調講演を、Pixel 3aの音声文字変換アプリで書き起こしている動画を見てほしい。

ほぼリアルタイム、かつかなり正確に英語の文字起こしが行なわれている。

基調講演を書き起こしたサイトと比べてみたが、大きく違っていたのは「Thanks Aparna(人名)」が「Thanks ever know」となっていたことぐらい。あとは文章にピリオドが入らないぐらいで、相違点を見つけるのが難しいくらい、かなり原文に近く書き起こされている。

以下が音声文字変換が書き起こしたテキスト(改行のみ筆者)。

Thanks ever know. Helpfulness is also about saving time and making your day a little bit easier. That's why last year at I/O. We gave you a first look at our duplex technology.

Duplex enables Google Assistant to make restaurant reservations on your behalf by actually placing a call. It's now available in 44 States across the u.s. And we've gotten great feedback not only from our users but from businesses as well for us duplexes to approach by which we train a eye on simple, but familiar tasks to accomplish them and save you time. Duplex was launched with restaurant reservations on the phone. But now we are moving beyond what is and extending duplex to tasks on the web.

We again want to focus on narrow use cases to start.So we are looking at rental car bookings as well as movie ticket even today when you make a new reservation online, you have to navigate a number of pages and steps filling out information and making selections along the way. I'm sure you're all familiar with this experience time consuming and if users leave during the workflow businesses lose out as well. You want to make this experience better for both users and businesses. So, let me show you how the assistant can do it better.

Google 基調講演 (Google I/O'19)

英語力が上がったように錯覚できる

音声文字変換は、Googleのスマートフォン「Pixel 3」シリーズにプリインストールされており、設定の[ユーザー補助]から利用可能。その他のAndroidスマートフォンでも、Google Playストアからダウンロードできる。

この音声文字変換を3月の発表会で体験。これは「欲しい」と思っていたので、5月に発売された「Pixel 3a」を購入。以後取材の時などに使っている。

音声文字変換
音声を自動で文字起こし

上記のGoogle I/Oの書き起こしは、Google自身によるものだから、ある程度最適化されているのかもしれない。だが、自分で英語の講演で使っても、かなりの高精度に書き起こしてくれている。

国内で開催される記者会見は、登壇者が英語で話していても、基本的には同時通訳が入る。ただ、筆者は基本的に英語で聞くようにしている。基本的に英語のほうが情報量が多い(通訳で端折られる部分が少なくない)ということと、海外取材では同時通訳はないので、普段からできる限り通訳無しで聴くようにしている。

しかし、話す人のスピードや訛り、会見のジャンルなどによっては、意味を取れないときもある。そういう場合は同時通訳レシーバーを使って、日本語を聞いている。

この音声文字変換を初めて使ったのが、ソニーミュージックとアマゾン ウェブ サービス(AWS)による「Amazon Managed Blockchain」についての取材だった(この会見はとても優れた同時通訳も行なわれていた)。

ソニーミュージック、音楽権利情報処理にAWSのブロックチェーン技術を採用

普段あまりブロックチェーン系の取材をしていないこともあり、細かな情報や単語の意味が音声だとよくわからない。しかし、音声文字変換でリアルタイムでテキスト化されることで、単語も文脈もかなり追えるようになる。最初は日本語通訳を聞いていたが、テキスト起こしがあれば意味がわかるため、途中から日本語レシーバーを外した。

耳の情報だけでなく、目からのテキスト情報が入ることで、自分の英語力が向上したような感覚になる。もちろん英語力が上がっているのではなく、テクノロジーが補ってくれているのだが、「自分の能力が拡張されている」感が気持ちいい。人にも勧めているが、英語が堪能な人でも結構驚いてくれる。

もともと聴覚障がい者向けに開発された音声文字変換アプリだが、使い方によって、様々な人の能力を高めてくれるはずだ。

すぐにテキスト化されるため、わからなかった単語や話の流れを振り返って学習できる。さらに、5月のアップデートでテキストを3日間保存できるようになったため、コピーして保存すれば、学習用にも役立てられるはずだ。

テクノロジーで英語力が上がる? ぜひ使ってほしい

これだけで十分凄いが、音声文字変換も万能というわけではない。

聴覚障がいがある人との1対1の対話を想定して開発されたことから、多人数の会議などでの利用にはあまり向かない(全く使えないわけではないが、話者が一人の講演などに比べると精度は落ちる)。

また、日本語の書き起こしについては、英語のクオリティには及ばず、句読点もほとんど打たれないので、文の区切りもわかりにくい。ゼロから文字起こしするよりは全然いいが、初めて英語を書き起こしたときのほどの感動はない。特に複数話者がいる会議だとイマイチだ。とはいえ、英語の学習精度もどんどん向上しているようなので、日本語対応の向上にも期待したい。

似たようなアプリとしては「Otter」もあり、西田宗千佳氏も紹介している。Otterのほうがクラウド経由で複数端末で管理でき、便利かもしれないが、筆者はいまのところ音声文字変換に満足しているのでOtterは試していない。

3月の音声文字変換の説明会では、今後GmailなどのG Suiteとの連携も想定しているとのことだった。今後の進化も期待できそうだ。

一方で、いまから自分が英語を学習しても、Googleの進化に太刀打ちできなさそうな気もしてくる。そんな無駄な心配はさておいて、素晴らしいサービスなのでぜひ試してみてほしい。

臼田勤哉