トピック

「日本語音声自動文字起こし」が実用的 Pixel 6とGroup Transcribeを比較

Google Pixel 6シリーズが標準搭載する「レコーダー」アプリ(左側)と、iOSに対応する音声文字起こしアプリの「Group Transcribe」(右側)を比較した

スマホ向けの「音声文字起こしアプリ」の周辺がいま最先端のデジタルテクノロジーの恩恵を受けて、その実用性に磨きをかけつつある。今回は秋に発売されたGoogle Pixel 6シリーズが搭載する「レコーダー」アプリと、iPhoneユーザーに評判の良いマイクロソフトの「Group Transcribe」を比べながら文字起こしアプリの最新事情をレポートしてみたい。

レコーダーアプリは、現在はPixel 6/6 Proのみの対応だが、今後はPixelシリーズや他のAndroid端末でも利用可能になる見込み。また、Group TranscribeはiPhoneユーザーは誰でも利用できるので、iPhoneでもAndroidでも日本語自動文字起こしが“当たり前”の時代が近づいている。

ついに日本語対応! Pixel 6の「レコーダー」アプリ

「レコーダー」はGoogle純正Pixelシリーズの標準アプリだ。音声の録音と文字起こしが同時にこなせる。Pixel 6シリーズに搭載されるGoogleが独自に設計したカスタムメイドのシステムICチップ「Tensor」は、高度な音声認識や画像処理をクラウドに頼ることなくスマホだけで速く・正確、かつセキュアに実現する。AI関連の処理に強いスマホであるPixel 6シリーズならではと言える目玉機能の一つがレコーダーアプリなのだ。

Pixel 6シリーズの登場以降、レコーダーアプリが英語のほか日本語、ドイツ語、フランス語の音声文字変換にも対応した。今後は端末ごとにレコーダーアプリの最適化を図りながら、Pixelシリーズの過去モデルにもアップデートを拡大する。

レコーダーアプリが待望の日本語対応を実現。2018年にGoogle Pixel 3シリーズが発売されてから、Pixelシリーズは日本でよく売れているというから、他のメジャーな言語よりも先に日本語対応が実現したのだろう

なおiPhoneにも「ボイスメモ」という音声レコーダーアプリがプリインストールされている。こちらのアプリは音声の録音に特化しており、音声の文字起こし機能はない。

Pixelシリーズのレコーダーアプリは、ライターである筆者の仕事にもはや欠かせない“武器”になった。アプリが日本語に対応する以前から、グローバル企業の発表会やインタビューを取材する機会にはいつもPixelシリーズを携えてレコーダーアプリを活用してきた。英語の音声文字認識が正確で信頼が置けるし、録音した音声ファイルをPixelシリーズからGoogleドライブを経由してMacに移して録音チェックの作業までがスムーズにできる。

レコーダーアプリの設定画面。音声文字変換の言語から日本語を選択できる。言語の右側、矢印のアイコンをタップすると辞書データを端末にダウンロードしてオフラインでもアプリが使えるようになる
英語は“なまり”や語彙の違いに対応する5種類の辞書セットを用意。本稿を執筆している11月中旬時点ではほかに日本語・ドイツ語・フランス語が利用できる

英語の文字起こしデータはGoogleドキュメントやWordのテキストデータなどに変換、Macに転送してからDeepLなどの翻訳ツールを併用してインタビューの資料としている。

レコーダーアプリの日本語対応もまた言語認識の速さ、正確さともに十分実用的なレベルに達している。詳細はこのあとのハンズオンで触れたい。

音声から起こした文字データは、レコーダーアプリの中でフリーワード検索ができたり、参照する必要のない箇所の削除など簡易な編集もできる。音声データにもまた自動的に「話し声」「音楽」などのタグが付くので、意味のない音声箇所を飛ばしながら聞き直せる。

音声文字起こしデータのアプリ内フリーワード検索にも対応する
アプリ内で文字起こしのテキストデータを先に切り貼り、削除してからテキストデータとして書き出すこともできる

また、音声文字変換の素材はGoogleドキュメントやテキストファイル形式でシェアできる。テキストではタイムスタンプや書式が消去されて、一続きの長大な文字の羅列になってしまうので、Googleドキュメントとして端末にいったん保存してから、Word(.docx)やリッテキスト形式(.rtf)のファイルとして保存、エクスポートする使い方が正解だ。

音声文字変換の素材はGoogleドキュメントやテキストファイル形式でシェアできる

音声と文字起こしのデータをミックスして最大5分までの「動画クリップ」が作れる機能も面白い。動画はそのままインタビューや対談のコンテンツを補足したり、プレビュー的な素材としても活用できそうだ。

レコーダーアプリのデータは音声、文字起こしのテキスト、および音声から簡易なテロップを起こして「動画クリップ」を作成できる
最長5分までの録音データから、音声の波形と変換された文字をテロップにしたMP4形式の動画クリップが作成できる

同時通訳にも使えるマイクロソフト「Group Transcribe」

比較対象としたGroup Transcribeは、マイクロソフトの社内イノベーションであるMicrosoft Garageプロジェクトから生まれた音声文字変換アプリだ。11月中旬時点ではiOS版のみが提供されている。推奨されている動作環境はiOS 12以降のiPhone/iPod touch。

iPhoneに対応する無料の音声文字起こしアプリ「Group Transcribe」

Google Pixelシリーズのレコーダーアプリと大きく違う点は、Group Transcribeは音声の文字起こしに特化しているため、音声データを同時に記録できないことだ。音声データはiOS標準のボイスメモなどを使って別途記録しなければならないため、完全な同期は難しい。

レコーダーと比べてGroup Transcribeが優れている点がいくつかある。ひとつは対応する言語が多いこと。もうひとつはiPhoneユーザーが無料で使えるアプリであること。そして離れた場所にいるGroup Transcribeのユーザーと音声によるオンライン会議ができることの3点だ。

Group Transcribeの方が文字起こしに対応する言語の選択肢が豊富に揃っている

Group Transcribeによる文字起こしを始める際は、最初に「セッション」を立ち上げて仮想的な会議室をつくる。セッションを開始したユーザーは、招待したい相手にアルファベット5文字で構成されるセッション固有の「会話コード」を伝える。会話コードは5文字のアルファベットをメールやSNSなどで送るか、または生成されるQRコードを参加者に伝えて、各々にiPhoneのカメラで読み取ってもらう。端末のBluetoothを使用して近くの文字起こしのセッションを自動検出する機能も使える。

セッションを発行後、iPhoneのカメラでQRコードを読み取って参加する
iPhoneのBluetoothを使って近くのセッションを自動検出する機能もある

アプリの設定から言語を選び、iPhoneに向かって話すと自身の発言が文字化される。ほかの参加者による発言は、それぞれの言語による文字起こしの結果と、その上に参加者の言語による翻訳も並ぶ。例えば筆者が外国人の友人とGroup Transcribeによって会話をすると、相手の発言が日本語で表示される。

文字起こしのスピードがとても速くて驚いた。実際の画面は素速くタテ方向にスクロールしている

誰による発言なのかはタイムラインに表示されるそれぞれの名前で確認できるし、文字起こしのデータから振り返ることもできる。アプリに記録された文字データはAirDropやメール、SNSなどを使えばシェアも簡単だ。

Group Transcribeアプリもまた、日本語音声からの文字変換は十分に高い精度に達していると思うが、かたや先述した通り、記録できるのは文字起こしのテキストデータだけなので、後から正確に会話の内容を振り返りたい場合にはやはり別途アプリやテープレコーダーをハイブリッドに使わなければならない。そしてひとつのセッションが記録できる時間が30分に限られているので、1時間前後におよぶ会議には使いにくい。

生成されたテキストデータはiPhoneの共有機能を使ってシェアできる

ビジネスシーンを想定し、音声文字起こし比較

パンデミックの期間中は多くのメーカーによる発表がオンラインで実施された。特に映像がアーカイブとして残らないイベントについては、レポートの精度を高めるために音声や文字による記録を残しておきたい。3つの異なる場面を想定してレコーダーとGroup Transcribe、それぞれのアプリがどれほど使えるものなのか試した。

話者が単独の場合

発表会や記者会見のスピーチを、一人の登壇者が一定のテンポで話す場合を想定してプレスリリースの原稿を読み上げてみた。

レコーダー、Group Transcribeともにそれぞれの実力が存分に発揮される。固有名詞や読みの同じ単語の漢字変換(『対角』と『体格』など)はミスが起きやすい点だが、これについては今後も文脈判断による機械学習の精度が上がることを期待するほかない。

どちらのアプリもアメリカの企業が開発しているためか、専門用語は元が日本語の場合にミスが目立つものの、カタカナ用語はある程度正確に拾う印象だ。Group Transcribeの方が少し音声からの文字化に時間がかかるようにも見えるが、最終的に仕上がるテキスト全体の精度に大差はない。

同じ発表会の音声をレコーダーとGroup Transcribeを使って記録してみた。こちらの画面はレコーダーアプリ
こちらはGroup Transcribeアプリの画面。このイベントの音声についてはGroup Transcribeの方がより正確に認識して、読みやすいテキストデータに変換もできている。「Xperia View(エクスペリアビュー)」「ルミエール賞」など固有名詞の認識につまずきがちになる点は致し方ないと思う

話者が複数名いる場合

2人以上の人物が会話の掛けあいを始めると、ふたつのアプリ間で仕上がりに差が出てくる。

Group Transcribeはひと続きの会話のセンテンスを細かく、短めに切ってくる。完成した文字起こしのテキストを比較すると、Group Transcribeはレコーダーアプリに比べて区切りが多い。テンポ良く読み進められるのだが、テキスト全体としては縦に長く伸びるので、やたらと長時間に渡る会話を交わしたような気になってくる。どちらの方がデータとして扱いやすく感じられるかは好みが分かれそうだ。

Group Transcribeは会話のセンテンスに細かく段落・改行などを入れて文字化する傾向にある

レコーダーアプリも会話をセンテンス単位で区切ってくれるのだが、自分と会話相手の声を聞き分けることができないため、話者どうしの発言がかぶった場合、ひとつのセンテンスに混さりがちだ。かといって息継ぎもせずに、長いフレーズを独り言ちてもセンテンスが逆に段落が入る場合もある。その法則性が今ひとつ掴めない。

レコーダーアプリの場合、同時に記録される音声と同期しながら文字起こしの方にタイムスタンプが打たれるので、後から発言を聞き直す時に役立つ。そしてレコーダーアプリは「えーと」「うーん」といった具合に、会話の合間に声を発しながら言いよどむと、これをあまりスルーせず律儀に拾ってしまうようだ。

文字起こしのデータに、音声データと同期したタイムスタンプを記録してくれるので、あとから録音を聴き直してあいまいな箇所を確かめられるところがレコーダーアプリの強み

異なる言語による会話

例えば海外のメーカー担当者に取材する時には日本語の同時通訳が入る。通訳の発言だけが文字に残れば十分であるように思うかもしれないが、インタビュイー(取材を受ける人)の発言を原語で記録できいれば、万一日本語通訳者の誤訳や大胆な省略があった場合でも、原語で確認ができるので安心だ。

Group Transcribeは2カ国語以上で交わされる会話の同時通訳のような使い方もできるアプリだが、話者がそれぞれに用意したiPhoneに向かって話さなければならない。とくにGroup Transcribeを自動翻訳機のように使う場合、話者どうしはそれぞれのiPhoneを持って、なるべく離れた場所で話した方がよりわかりやすい文字起こしの結果が得られる。両者が近接して話をしてしまうと、それぞれの発話をアプリが拾おうとして、誤認識された不要な文字起こしのデータが蓄積してしまう。

外国語教師の協力を得てGroup Transcribeをテストした。自動翻訳機のようにも使えるアプリだが、会話の相手が近くにいると、自分の端末が会話相手の外国語を日本語として誤認識したまま拾ってしまう。なるべく相手と離れて向かい合うか、会話がオーバーラップしないように間を置く必要があった

レコーダーアプリは今のところ対応する言語であれば、録音中に言語を切り換えながら使えるのだが、毎度画面をタップして切り換えなければならないうえ、都度文字起こしが再開するまで数秒のタイムラグが発生する。ふつうのスピードで交わされる会話に付いていくことは困難だ。どちらのアプリも2つ以上の言語を指定して、それぞれに文字起こしをしてくれる機能が欲しい。

ふたつのアプリ「できること」と「できないこと」

ふたつのアプリはオフラインでも使えるのだろうか?

レコーダーはあらかじめ言語ごとに辞書ファイルをダウンロードしておけばオフラインでも文字起こしができる。海外出張の際などにPixel 6シリーズが万一オフラインになっても仕事のツールとして使えるので頼もしい。反対にGroup Transcribeはオンライン利用がマストだ。

Group TranscribeはiPhoneがネットワークに接続されていないと文字起こしの機能が使えない

どちらのアプリも録音済みの音声ファイルを読み込んで文字変換を行なう機能は搭載していない。その代わりとして、いずれもPC用アプリケーションとなるが「Googleドキュメント」の文字起こしを使うか、またはMicrosoft 365のWordが実装する「ディクテーション」機能を使う方法がある。録音した音声ファイルをPCで再生しながら、ふたつのアプリケーションで文字化するのだ。

実際に試してみたところ、Googleドキュメントは文字認識が遅く、今はまだ実戦に使えそうもなかった。Wordのディクテーションの文字認識はもう少しマシではあるものの、段落や改行が入らない文字データがとても読みづらい。既存音声ファイルからの文字起こしについては、もう少し他のアプリやサービスとも比較してみる必要がありそうだ。

Mac版Wordのディクテーション機能を使って、音声を再生しながらMacBookの内蔵マイクで聞き取り、文字化してみた。聞き撮りのスピードが遅く、精度もいまひとつだった

使いたい時はいつも手元にある安心感

Pixel 6シリーズのレコーダー、iPhoneで使えるGroup Transcribeともに「テープ起こし」の手間から筆者のようなライターを解放してくれる画期的なスマホアプリだと思う。

できれば今後は以下の点でさらに進化を期待したい。

レコーダーアプリの方は「複数名による会話」の文字起こしに対応したい。話者の声を聞き分けながら段落・改行を入れたり、テキストが色分けされれば文句なしだ。こちらもまた非常に難易度が高いチャレンジになると思うが、文字起こしが完了したデータから「ね。」や「でしょ。」など、話者の口語による語尾のクセを判別して、すべて丁寧語に置換ができる機能もほしい。

今回試したふたつのアプリはどちらも日本語の音声文字変換のレベルが即戦力として使える域に到達していた。いつも持ち歩くスマホだからこそ、とっさに使いたい場面で手元にある確率が高いし、また海外に出かけた時にもモバイルネットワークに接続すればいつもの慣れたアプリが日本にいる時と同じ感覚で使える安心感がある。また、レコーダーであれば、ネットワーク接続なしでも動作するのも大きなメリットと言える。

これまでの録音・録画だけでなく、テキストでも残せる時代が当たり前に近づいている。取材だけでなく議事録の作成やイベントの記録など、様々なシーンでの活用が広がっていくだろう。単体のボイスレコーダーやポケットサイズの通訳機などの立場は、今後スマートフォンとアプリに脅かされていきそうだ。