いつモノコト

スマホじゃない便利。話者別で書き起こせるレコーダ「VOITER mini」

VOITER mini

GoogleのPixelシリーズやLINEの「CLOVA Note」など、音声のやりとりをテキストにできる「書き起こし」が最近話題を集めていますが、筆者が最近購入して愛用しているのが、iFLYTEKの「VOITER mini」という書き起こし対応のボイスレコーダーです。

VOITER miniは、雑音環境での音声認識技術を競う国際コンテスト「CHiME」で3回連続世界No.1を受賞したという精度の高さをアピールしており、録音したデータをテキストに書き起こしてくれるほか、話者ごとに文章を分けてくれるのが特徴です。なお、テキスト変換にはiFLYTEKのクラウドサーバーを利用しますが、その際のデータは「日本国内で厳密に管理」しているとのことです。

マッチ箱より小さい小型
側面に充電用のUSB-Cポート

「mini」という名前から推測できるかもしれませんが、カメラやディスプレイを搭載した「VOITER」という上位モデルもラインアップされており、こちらは会議の動画撮影や書き起こしたテキストのディスプレイ表示が可能です。今回レビューするminiは録音に特化したシンプルなモデルで、書き起こしにはスマートフォンと専用アプリが必要な点が大きな違いです。

上位モデルの「VOITER」

VOITER miniの価格は20,350円で、1年目は無料で書き起こしが利用可能。2年目以降は月1時間まで無料で、月200時間まで文字起こしできるプレミアムプランが月額1,750円という料金設定になっています。なお、上位モデルのVOITERは54,780円で、miniと同様1年目は無料、2年目のプレミアムプランは時間無制限で月額2,180円になります。

スマホとペアリングした後は録音ボタンを押すだけ

初期設定はスマートフォンに専用アプリ「VOITER notes」をインストールし、手順に従ってユーザー登録を行なった後、スマホとVOITER mini本体をBluetoothでペアリングします。登録方法はメールアドレスのほかGoogleとAppleのアカウントに対応しています。

メールアドレスまたはGoogle/Appleアカウントでユーザー登録
VOITER miniとペアリング

また、VOITER miniと接続できる端末は1度に1台までですが、録音したデータはVOITER miniの専用クラウドにアップロードされるため、異なるスマートフォンでもペアリングをし直せば複数端末での利用も可能です。

初期設定の手順自体は、アプリに表示された指示に従っていけば簡単です。手順の説明動画もYouTubeにも掲載されているのでこちらも参考にしてください。

VOITER mini 操作ガイド

利用する時は、VOITER miniの電源を入れてから録音ボタンを押すだけ。録音ボタンの横にあるLEDが白く点灯していたら録音を開始しています。スマートフォンを使わずVOITER mini単体でも録音できますが、同時にアプリを起動しておくと、音声が自動でテキストに変換されるのをリアルタイムに確認できます。なお、この時点で表示される文章は話者が区別されていない状態での書き起こしになります。

スマートフォンまたは本体から録音をスタート

録音終了後に話者別で書き起こし。精度は必要十分

会議が終わったら録音を止めてアプリを起動すると、録音データがスマートフォンに転送されてからクラウドでテキスト変換が行なわれ、話者の区別が行なわれたテキストデータが作成されます。

なお、録音終了時のテキスト変換はネットに接続が必須で、テキスト変換が終了するまで数分から数十分ほどかかります。

録音が終わると変換が始まる
録音したサンプル

変換されたテキストは「スピーカー1」「スピーカー2」という名称で話者が区別されており、1つの名前を変えると他の名前もまとめて変更できます。例えば、変換されたテキストを見ていて、「あ、これは山田さんが発言していたな」と思ったら「スピーカー1」を「山田」に変更すると、すべての「スピーカー1」が「山田」になります。

名前をまとめて変更

録音した音声ファイルはアプリで再生でき、今どこを聴いているのかがリアルタイムに表示されます。また、変換したテキストをテキストファイル形式またはWord形式で出力したり、録音した音声ファイルの出力もできます。なお、出力した音声ファイルはテキストは連携せず、ただ音を聴くだけになります。

アプリで再生すると該当の箇所が表示される

以下はVOITER miniについて対面で語ったやりとりをテキストに起こした内容です。他に人がいない会議室で収録したためかなりいい録音環境ではあるものの、自動で書き起こしたにしては十分な精度だと感じています。

VOITER miniで書き起こしたテキスト

甲斐 00:00

それでは今回はえボイタがミニの自動書き起こしの精度をテストしてみたいと思います。で、今日はここにボイラーミニを持ってきてるんですけど、ボイタミニ自身はすごい小型のレコーダーなんですね。で、このスマートフォンとブルートゥースで接続して音声の書き起こしをずっと自動でしてくれるってやつです。で、特徴としては和社の認識をちゃんとして一台のレコーダーで収録するんだけど、何人かの声ちゃんと聞き分けて分析してくれるのがよくできてるなと思う。

太郎 01:36

え、これいくらするんですか?

甲斐 01:38

お値段はですね、20350円ですね。まあまあいい値段しますね。あと実際には最初購入してしばらくは無料で使えるんですけど、はい、その後月額料金とかは発生するっていうプランですね。1年目は完全無料でで2年目からはえーチョプランが二つあって毎月1時間無料ベーシックプランと有料プランは月額1007、150円で200時間はいですね。なので、まあ書き起こしとかを結構使う人であれば、まあ月1750円はまあ妥当な金額かなと思います。

太郎02:18

え?でもさあ、なんか最近だとこうアプリスマホだけでこう書き起こしもしてくれるみたいなアプリも結構あるじゃないですか。そうですね。その辺に対してこのボイラーのコメリットみたいなってなんかあるんですか?

甲斐 02:32

これのメリットはスマホを渡さなくていいってとこだと思いますね。シンプルにスマートフォン渡すのって結構プライベートな情報も入ってるし、例えば画面に色んな通知が見えちゃったりもするし、仕事の場であったとしてもちょっと渡しにくいシーンもあると思うんですよね。でその点これはあのスマートフォンではないガジェットなので気楽に売ってるっていうのとこれ実物見ると分かるんですけどそすごくちっちゃいんですよね?もうマッチ箱より小っちゃいの大きさなのですごく存在感がないのも大きいと思います。結構スマホとかも対談とかインタビューの時にパンテマンに行くとあ録音されてるなみたいな感じが出るんですけど、はいこれ割ともう実際にとも気づかない間に受けるぐらい小さいので、はい、この噂とかインタビューに対するそのプレッシャーみたいなものをだいぶ下げられるかなと思いますね。

太郎 03:23

昔のアイシーレコーダーにちゃんとした書き起こし、機能がついたようなイメージで使い。

甲斐 03:28

そのぐらいのイメージさえで実際に録音ファイル自体もこん中に残ってるので普通に音声出しても聞けますしはいスマートフォンに転送してから書き起こしもしてくれて、書き起こしたら結構時間がかかってリアルタイムにも書き起こししてるんですけど、その後音声の録音終了してからもう1回認識かかり、

太郎 03:50

え?遂行みたいなことしてるんですか?

甲斐 03:52

これなぜ2回やってるか分かんないですけど、もう1回なんか読み込みしてるんですよね。なので録音しようってすぐは使えないですね。結構ファイル量が大きいと10分とか数10分とか待つこともありますで、出来上がったファイルはアプリでそのまま再生しないこともできますし、テキストファイルとワードファイルで書き出していてもできるんだってます。

スマホとは”別”で録音が便利。小ささも魅力

前述のCLOVA NoteやGoolgeなど、スマートフォンで手軽に文字起こしできるサービスはいくつも登場していますが、VOITER miniのいいところは「スマートフォンではない」という点です。筆者もいままでいくつかの書き起こしアプリを使ってきましたが、会議中に自分のスマートフォンを手元で見られなくなるだけでなく、スマートフォンに届いた通知が他の人に見えてしまう心配もあります。また、バッテリーの消費が激しいスマートフォンでは、録音していたはずなのにいつの間にかバッテリーが切れていた……、ということもありえます。

その点VOITER miniはスマートフォンを使わない専用デバイスという安心感に加えて、本体が小さいのでいかにも「録音している」という威圧感がなく、自然に会話しやすい印象です。バッテリーも20日近く持ち、充電も2時間で100%まで充電できるので、バッテリーの面でも安心です。

なお、VOITER miniは音声入力機能を備えていないため、利用できるのは対面で行なう会議が中心で、オンライン会議には向いてはいません。ただし、スピーカーフォンなどと組み合わせて使えば、ビデオ会議の書き起こしも可能です。

筆者が最近使っているのは、知人との飲食時です。知人と楽しく食事したときに盛り上がったアイディアが、翌日になるとなぜか思い出せない、ということは筆者の経験上多々あるのですが、そんなときに前日のちょっとしたメモがあると記憶をたぐる手助けにはなります。何度か実際に挑戦してみたところ、会議に比べると騒がしい食事の場は音声認識の精度も下がるのですが、「どんな会話していたかな?」と思い出す材料としては十分に便利でした。

これはかなり邪道な使い方ではありますが、静かな場所での対面会議では十分に満足な精度です。対面での打ち合わせや取材が多い人には、スマートフォンアプリを使わない選択肢として検討をお薦めしたい製品です。

甲斐祐樹

Impress Watch記者から現在はフリーライターに。Watch時代にネットワーク関連を担当していたこともあり、動画配信サービスやスマートスピーカーなどが興味分野。個人ブログは「カイ士伝