レビュー

わずか数秒録音したサンプル音声でテキストを読み上げてくれる無料ツール「Voicebox」

Alibaba製の「Qwen3 TTS」をWindowsで手軽に体験

「Voicebox」

 音声をAIで生成する方法はいくつか登場してきています。ただ、「ElevenLabs」を代表とするクラウド型サービスでは、月額料金がかかってしまう点がネックになっていた方も多いのではないでしょうか。

 そんな中、Alibaba Cloudが「Qwen3 TTS」という音声生成AIモデルをオープンソースとして公開し、SNSを中心に大きな話題になりました。このモデルは、わずか数秒の音声サンプルから声のクローンを作れてしまうという、なかなか衝撃的な代物です。

 ただ、「Qwen3 TTS」をローカル環境で使おうとすると、Pythonの環境構築や、各種ライブラリのインストールなど、少し敷居が高い作業が待っています。

 そこに「Voicebox」というデスクトップアプリが登場しました。インストールして実行するだけで使い始められ、Pythonのインストールも、コマンドの操作も一切不要です。

短時間でOK。参考音声の録音から

 初回起動時に、まず「Qwen3 TTS」のモデルデータがダウンロードされます。これは最初の一度だけの作業で、以降の音声生成はすべてローカルで完結します。自分の声というセンシティブなデータを使う場合、外部送信なしというのは地味に重要なポイントです。

 モデルのダウンロードが終わったら、さっそく声のプロファイルを作成します。アプリ内で直接マイクに向かって録音するか、手持ちの音声ファイルを読み込むか、どちらかを選べます。公式では4秒程度の音声でも動作すると書かれていますが、筆者は念のため約15秒の音声を録音してみました。なお、録音する際は読み上げるテキストをあらかじめ登録しておくか、文字起こしをして登録する必要があります。あらかじめテキストを準備してそれを読み上げた後、コピーペーストするのが楽です。

 一度プロファイルを作ってしまえば、あとは何度でも同じ声で音声を生成できます。テキストを入力して生成ボタンを押すだけ、という非常にシンプルな操作です。

「Voicebox」でテキストを読み上げてみた

17秒の音声は約3分で生成。息継ぎかなり自然に

 実際に音声を生成してみたところ、筆者が使っているGeForce RTX 4070 Ti搭載の環境で、約17秒の音声を生成するのに3分ほどかかりました。

 生成された音声のクオリティですが、全体的な印象としては“かなり自然”です。特に句点のところで息を吸うような間が入るのが印象的で、単調な棒読みというレベルではありません。AIポッドキャストや読み上げコンテンツの用途であれば、十分使えるレベルではないかと感じました。

 ただ、漢字の読みが一部怪しい箇所があるのは気になりました。誤読しないようにテキストを工夫したり、生成後に一度通しで聴いてチェックするステップはまだ必要そうです。

「Voicebox」でのテキスト読み上げは漢字の読み方を間違えることも

 「Voicebox」のいちばんの強みは、ローカルで動いて完全無料という点に尽きます。モデルを一度ダウンロードすれば以降のコストはゼロです。

 それ以上に筆者が面白いと感じたのは、非常に短時間の録音で声のクローンが作れてしまうという、この技術の手軽さそのものです。VTuberとしての活動で大量のセリフを自分の声で生成したり、AIポッドキャストを作ったりと、コンテンツ制作の可能性がぐっと広がる予感がする一方、ディープフェイクなどの悪用リスクも強く感じました。

 SNSで話題になった「Qwen3 TTS」を、Pythonなしで手軽にWindowsから試せる入り口として、「Voicebox」は非常に魅力的なツールです。音声AIに興味がある方は、触ってみる価値があるのではないでしょうか。