レビュー
生成AIが簡単なテキストをもとに画像と音声を雑然と出力し続ける「EasyZatuGen」
数秒ごとに画像と共にセリフを生成し、合成音声で読み上げ
2024年1月23日 10:28
「EasyZatuGen」は、日本語の短いテキストから画像と音声付きテキストを生成するプログラム。生成には「AutoAWQ」と「Calm2 7B Chat - AWQ」、「StreamDiffusion」、「Style-Bert-VITS2」を使用しており、指定したテキストに合わせて、画像とテキスト、音声を全てローカルで生成する。
実行にはGPUが必須で、GeForce RTX 3060以上で12GB以上のVRAMを搭載したビデオカードが必要。画像を生成せず、テキストと音声の生成のみであればVRAMは8GBでも動作する。今回の実行環境は、「ZOTAC GAMING GeForce RTX 4080 16GB AMP Extreme AIRO」を搭載したPCとなっている。
インストールはバッチファイルをダウンロードして実行するのみ。インストールには15分程度が必要で、初回起動時には必要なファイルのダウンロードやモデルの初期化作業に1分ほどかかる。これらの作業自体は自動で進むので、作業が完了次第プログラムが起動する。
起動すると、画像とテキスト、音声の生成が始まる。初回起動時には「バレンタインデーの学校で女学生の{ひまりちゃん}がさゆり先輩にチョコレートを渡しながら告白。|(2girls, holding gift box: 1.4)」というテキストが指定されており、これに沿ったものがどんどん生成されていく。
画像は数秒ごとに新しいものが生成される。テキストも次々に生成され、音声が途切れることなく会話が続く。内容は指示したテキストをベースに、少しずつ変化を付けたものになっており、繰り返すほどにバリエーションが増えていく。
例えば上のテキストだと、さゆり先輩がバレンタインチョコを受け取って喜んだり、彼氏がいるから受け取れないと言ったりとパターンが分かれる。会話の流れは概ね成立しているが、若干不自然な展開もある。
日本語の短いテーマから、画像生成プロンプト&和訳とアップスケールした絵とセリフ&感情付き音声を、雑然と生成するEasyZatuGenです。
— Zuntan (@Zuntan03)January 8, 2024
calm2-chat-AWQとStreamDiffusionとStyle-Bert-VITS2の三点盛りで、すべてをローカルで生成します。
要 RTX 3060 12GB。声だけなら8GB。https://t.co/SvOeKTyqEHpic.twitter.com/HB2lDK4e1M
画像は指示されたテキストに合わせて生成されているようで、生成されたテキストと必ずしもマッチした内容にはならない。
指示するテキストを修正するには、画像生成ウインドウの上部にあるテキストボックスの内容を修正する。半角波括弧「{}」でくくられた中に主役となるキャラクターを入れる必要があり、それ以外は自由に記述して構わない。後ろに半角括弧「()」で記述している英単語は画像生成を適切にするための指示だ。
テキストの内容を修正している間も、生成は止まらない。修正したテキストに合わせて、生成される内容も変化していく。プロンプトや生成量などを細かく指定していざ生成を開始という形ではなく、だらだらと生成を続けながらいじっていくという感じになる。
作者のZuntan氏は「雑然と生成する」と説明している。「EasyZatuGen」という名前は、簡単な指示で、画像やテキストが雑然と生成されていくという意味なのだろう。それでも画像と音声がそれなりに近い形で出力される面白さはあるし、それらが厳密さを求めないで垂れ流すように生成されていくのがユニークだ。
ちなみに読み上げ音声は女性のモデルで、画像生成も女性を得意としている。男性キャラクターを指定するとテキストは自然に生成されるが、音声や画像は女性寄りのものになる。このプログラムは厳密さを求めるものではないと理解して使いたい。