レビュー

自動文字起こしレコーダ「AutoMemo」を試す。精度はもう一歩?

AI自動文字起こしデバイス「AutoMemo」

今、ライター界隈でアツい(と個人的に思っている)のが、自動文字起こしサービスだ。手間をかけることなく音声を素早くテキスト化してくれる自動文字起こしサービスは、昨今のAIの進化によっていよいよ実用的になってきた。

タイピングがスーパー速い人なら、もしかしたら不要なサービスなのかもしれない。が、筆者の場合は録音した音声を耳で聞いて、キーボードで打ち直すのに実時間の2倍はかかる。つまり、1時間分の音声の文字起こしに2時間以上かかることもざらなのだ(巻き戻して聞き直すことも多いためだが、まあ、遅い)。

しかし自動文字起こしサービスなら、実時間以上かかることはまずない。場合によっては数分で完了してしまうこともある。なので、毎日のようにある会議や取材の内容をテキストにまとめるのには、今やなくてはならないツールになった。筆者のようなライターだけでなく、会議の議事録などで同じような悩みを抱える人は多いだろう。

自動文字起こしのクラウドサービスやスマートフォンアプリはいくつか存在するが、12月に発売されたばかりの「AutoMemo」は、ICレコーダーと文字起こしサービスが一体となったユニークなデバイスだ。価格は18,000円で、利用時間に応じたサービス料も必要となる。どんな風に使えるのか、音声の認識精度や実用性はどれほどのものなのか、試してみた。

文字起こしの精度については普段から利用している文字起こしサービス「Rimo」とも比較しているので、参考になれば幸いだ。

録音データをクラウドで解析し、テキスト化

AutoMemoは、表面がガラス、背面が金属素材で、なんとなく一昔前のiPodのような雰囲気。ICレコーダーとしてはオシャレで、録音・停止ボタン、ブックマークボタン、電源ボタンの3つしかないシンプルで見るからに使いやすそうなデザインも好印象だ。USB Type-Cポートで内蔵バッテリーを充電して利用するタイプで、電池交換はできない。

表面はガラス。下部に充電用ポートとマイク入力端子がある
背面は金属素材。シンプルなデザインだが、できれば三脚穴が欲しかったかも

使い始めるには、まず専用スマートフォンアプリとの連携が必須となる。アプリから初期設定することでデバイス単体で直接LAN(ルーター)にWi-Fi接続することが可能だ。ボタン操作で録音してから停止したとき、そのネットワークに接続できる状態であれば、自動でWi-Fi接続し、録音した音声データをクラウドにアップロードする。クラウド上で音声解析されてテキスト化が完了すれば、アプリ上でテキストを確認できる、という流れだ。

側面のボタンで電源をオンオフ
専用アプリからWi-Fi設定して宅内LANに接続できるようにする

端末内部でテキスト化の処理を行なうわけではないので、いったん内蔵ストレージに音声データを貯めておくことになる。内蔵ストレージの容量は8GBあるが、連続録音は最大約5.5時間分、満充電時の待機可能時間は約6.5時間とのことで、1、2時間で終わる会議だと問題ないが、長時間使用するシチュエーションだとやや不安ではある。1日に何度も会議・取材するような用途では活用しにくいかもしれない。

テキスト化された音声データの一覧
テキスト化された内容を表示しながら音声再生もできる(内容はぼかしています)

本体価格は18,000円(税別)で、テキスト化には追加でサービス料金を支払う形。月間1時間分までの音声データであれば無料で、月額980円(税別)のプレミアムプランに登録することで月間30時間分までがテキスト化可能になる。現在は発売記念キャンペーンとしてプレミアムプランが6カ月間無料となっている。

プランの変更はアプリから手続きが可能。無料のベーシックプランで足りなくなったときは、10時間分を980円でチャージするメニューも選ぶのもアリ

半分以下の時間で解析完了。テキスト、音声データの取り込みも可

ボタンがそもそも少ないので、使い方は、慣れれば迷うところはない。最初のうちは録音中なのかどうかがわかりにくいようにも感じたが、録音ボタンの外周が光っていれば待機状態、中央が丸く光っていれば録音中、ということさえ覚えておけば問題なし。

録音ボタンの中央が光っていれば録音中

で、こうしたサービスにおいて気になることの1つは、音声データのテキスト化にどれくらいかかるのか、というところだろう。

試しに外出先で取材中に録音した後、自宅でAutoMemoの電源をオンにしてみると、自動で自宅のWi-Fiに接続してアップロードが開始された。約56分間の音声データのアップロードは数分程度で完了し、すぐにテキスト化の処理が始まる。

アップロード完了からテキスト化完了までは、約24分かかった。公式サイトでは録音時間の3分の1程度、と案内されているが、それよりも少し長くかかることもあるようだ。とはいえ、ユーザーとしては解析中に何かをする必要はなく、ただ放っておけばいい。テキスト化が完了すればスマートフォンに通知が届くので、多少時間がかかったとしても気になることはないだろう。

1時間録音した場合は、だいたい30分以内に終わると考えておけばよさそう

テキスト化された内容はアプリ内で参照でき、音声データの再生も可能だ。再生に合わせて認識結果のテキストをハイライト表示する確認用の機能もある。「共有」機能を使えばテキストデータと、音声データのダウンロード先リンクを他のアプリに連携・出力することもできる。

テキストの変換精度については後述するが、いずれにしろ手直しは必要になる。スマートフォンのアプリには、テキストを編集する機能は現時点(2020年12月)ではまだないので、パソコンのテキストエディターなどで編集するためにも、共有機能でテキスト出力するのは一般的な手順となるはずだ。

日本語音声の変換精度はいかに!?

そして、肝心の日本語テキストの変換精度は、正直に言えば、もう少し頑張ってほしいかな、と言いたい感じではある。一番ネックになりそうなのは、改行や句読点がほとんど挿入されず、ものすごく長い文章がずっと続く見栄えになっているところだ。

同じ音声について、AutoMemoでテキスト化されたもの(左)と、自動文字起こしサービスの「Rimo」(右)での結果とを比較。AutoMemoのテキストは改行や句読点が少ない(内容はぼかしています)

パソコンに音声データとテキストを取り込んで、再び音声データを聞きながら手直ししていくことになるが、このとき、大部分が改行されていない1文を編集していく形になり、可読性が低く、疲れてしまう。音声データの最初と最後はそもそも文字起こしが不要なことも多いので、途中から確認していきたくても、文字がただ並んでいるなかから音声と合致している部分を見つけ出すのには骨が折れる。

変換精度は録音状態に大きく左右されるため、一概に低いとも高いとも判断しにくいところはある。他のサービスだと抜けてしまうような、判定しにくそうな早口の部分がしっかりテキスト化されているところもあれば、音声データとしての状態は良さそうなのに、センテンスごと抜けてしまっているような箇所もあったりもする。

当然ながら、ゼロから文字起こしするより、AutoMemoでテキスト化したものをベースに手直しする方が圧倒的に時間を有効に使える。けれども、筆者が普段使用している自動文字起こしサービスの「Rimo」と比較してみると、現時点では、Rimoの方が変換精度としては1段上だ。

この原稿の一部を筆者が音声入力して、AutoMemoとRimo(スマートフォン使用)で文字起こししてみたところ。カッコ部分の表現も含め、全体的な精度の高さはRimoが一枚上手

1台2役で多言語対応。可能な限り手間を減らしたい人に

AutoMemoはICレコーダーなので、現場での音声録音と自動文字起こしの2役を1台で、しかも半自動でこなせるという意味では、最小限の手間しかかからない。だから、効率化できる部分は多いといえる。

また、日本語だけでなく、英語など多数の外国語にも対応しているため、(録音の前にあらかじめアプリ側で言語設定を切り替えておく必要はあるが)話者の言語に関わらず1台で対応できるところも便利だ。

外国語の文字起こしにも1台で対応できる

あとは日本語のテキストの変換精度が今後さらに向上するようであれば、筆者の普段の仕事(主に取材)での実用性もより高まっていくだろう。6カ月間の無料期間の間に、さらなる進化があることを期待したい。

日沼諭史

Web媒体記者、IT系広告代理店などを経て、フリーランスのライターとして執筆・編集業を営む。AV機器、モバイル機器、IoT機器のほか、オンラインサービス、エンタープライズ向けソリューション、オートバイを含むオートモーティブ分野から旅行まで、幅広いジャンルで活動中。著書に「できるGoProスタート→活用 完全ガイド」(インプレス)、「はじめての今さら聞けないGoPro入門」(秀和システム)、「今すぐ使えるかんたんPLUS+Androidアプリ 完全大事典」シリーズ(技術評論社)など。Footprint Technologies株式会社 代表取締役。