使ってわかるCopilot+ PC
第4回
【AIに無茶ぶり】歌の歌詞を「ライブ キャプション」は文字起こしできるのか?
バラードからハードコアまで、いろいろなジャンルで試してみた
2024年8月9日 06:45
音声を文字起こし機能
「Copilot+ PC」のAI機能の1つ「ライブ キャプション」は、音声を読み取ってテキストに変換する機能。いわゆる文字起こしであるが、PCに入力されたあらゆる音声をソースにできるのが特徴だ。
例えばWeb会議やラジオニュースなどに使用すれば、スピーカーの音声出力をOFFにしていても、読み取ったテキストで内容で把握できる。何かしらの理由で音を出せない状況で活用できる機会はあるだろうし、会議のコメントを聞き逃さないための予防策にも役立つ。
またリアルタイム翻訳機能も有している。現時点では日本語を含む多数の言語を聞き取り、英語に翻訳するというもの。厳密にはこの翻訳機能が「Copilot+ PC」のAI機能であり、NPUを使った処理となる。日本語を含む英語以外の言語へのリアルタイム翻訳機能はまだ未実装なので、今後にも期待したい。
日本語音声の読み取りはほぼ完璧。翻訳はNPUで行う
今回はこちらの機能を使って、いくつかのYouTube動画の音声を聞き取れるかを試してみる。使用した機材は、「Surface Laptop 13.8インチ(第7世代)」。
「ライブ キャプション」を使用するには、タスクバーにある[クイック設定]を開き、[ライブ キャプション]を選ぶ。すると画面上部に横長で半透明のウインドウが表示される。ここにテキストが表示される仕組みだ。
初期設定では表示言語が英語になっているため、リストの中から日本語を探して変更する。こうすれば日本語音声だけを読み取り、日本語で文字起こしをしてくれる。英語の設定にしておけば、日本語音声を読み取って英語のテキストで出力してくれる。
「ライブ キャプション」のウインドウは、初期位置だと画面上部に横いっぱいに表示されるのだが、位置やサイズは自由に変更できる。以降は記事で見やすいよう、適切なサイズに変更して試していく。
設定から[マイク オーディオを含める]を選択すると、マイクの音声を読み取って、自分が話した声をすぐさまテキスト化できる。何か意図があってマイクの音声を拾いたい時にはこれをONにし、普段はマイクの声を拾わないようにOFFにしておくのがいい。
では文字起こしを試してみよう。まずは[マイク オーディオを含める]をONにして、PCの前で話してみる。読み取りやすいようにハキハキと喋ってみると、全く漏れなく日本語のテキストが表示された。
いろんなYouTube動画を聞き取らせてみる
次はYouTubeの動画で試してみる。普通に聞かせれば問題ないことはわかったので、編集部チョイスによる意地悪な動画を使用する。1つは早口言葉、残り5つはジャンルの違うヴォーカル曲だ。
まずは早口言葉。
- ⇨【早口言葉①】大谷健太チャンネル開設!! - YouTube
- https://www.youtube.com/watch?v=ahTjLfNxol4
そもそも早口言葉を言えているのかという問題はあるが、およそ日本語として成立していない部分が多い。内容的にも大半が間違えている上、発言の半分近くは聞き取れずに文字起こしをしていない。さすがに厳しいようだ。
次はバラード。
- ⇨T字路s 「これさえあれば」 - YouTube
- https://www.youtube.com/watch?v=85-YldTl_yE
画像は関係ない部分にモザイクをかけて、この曲で読み取った部分だけを残している。数分ある曲のうちに文字起こししたのはこの6行だけ。それも正確性にはかなり欠ける。
次はポップ。
- ⇨平井 堅 『POP STAR』MUSIC VIDEO - YouTube
- https://www.youtube.com/watch?v=WzfteHcskYo
音程の変化が少ない部分は文字起こしをしようという動きをするが、それ以外は無反応なことが多い。曲らしい部分は文字起こししない考え方なのかなと思う。
次はロック。
- ⇨GLIM SPANKY – 「Fighter」Music Video - YouTube
- https://www.youtube.com/watch?v=pLzs6iHRyV4
たった9文字である。しかも内容も意味をなしていない。声質的にも聞き取りにくいのかもしれない。
次はラップ。
- ⇨鎮座DOPENESS×環ROY×U-zhaan / サマージャム'95 - YouTube
- https://www.youtube.com/watch?v=Ir8xLSoz8VI
音程なく言葉を発するラップは文字起こしの対象になるようで、かなり積極的に出力される。1曲が終わったころには表示領域2つ分くらいは使用しており、この画面より上にも前半部分が書かれている。ただ正確性には欠け、歌詞の雰囲気がわかる程度。
最後はハードコア。
- ⇨マキシマム ザ ホルモン『鬱くしき人々のうた』Music Video - YouTube
- https://www.youtube.com/watch?v=ztXnATr-mck
ご覧のとおり、全面モザイク。1文字も起こさなかった。まあ、声質や楽器音の大きな曲の内容からして当然かな……と傾向がわかってきた。
結論、「ライブ キャプション」は基本的にヴォーカル曲の文字起こしをしようとしない。BGMとして曲が流れていても、喋っている人の音声を聞き分けて文字起こしをしたいから、というような意図ではないかと思う。
何のために試したんだと思わないでもないが、こういうものだよねという理解が深まったということで納得しておきたい。また最初に検証したとおり、通常の話し声であればかなり正確に読み取ってくれるので、うまく活用していただければと思う。
1977年生まれ、滋賀県出身
ゲーム専門誌『GAME Watch』(インプレス)の記者を経てフリージャーナリスト。ゲーム等のエンターテイメントと、PC・スマホ・ネットワーク等のIT系にまたがる分野を中心に幅広く執筆中。1990年代からのオンラインゲーマー。窓の杜では連載『初月100円! オススメGame Pass作品』、『週末ゲーム』などを執筆。
・著者Webサイト:https://ougi.net/