レビュー

生成AIが簡単なテキストをもとに画像と音声を雑然と出力し続ける「EasyZatuGen」

数秒ごとに画像と共にセリフを生成し、合成音声で読み上げ

「EasyZatuGen」の画像生成ウインドウ

 「EasyZatuGen」は、日本語の短いテキストから画像と音声付きテキストを生成するプログラム。生成には「AutoAWQ」と「Calm2 7B Chat - AWQ」、「StreamDiffusion」、「Style-Bert-VITS2」を使用しており、指定したテキストに合わせて、画像とテキスト、音声を全てローカルで生成する。

 実行にはGPUが必須で、GeForce RTX 3060以上で12GB以上のVRAMを搭載したビデオカードが必要。画像を生成せず、テキストと音声の生成のみであればVRAMは8GBでも動作する。今回の実行環境は、「ZOTAC GAMING GeForce RTX 4080 16GB AMP Extreme AIRO」を搭載したPCとなっている。

 インストールはバッチファイルをダウンロードして実行するのみ。インストールには15分程度が必要で、初回起動時には必要なファイルのダウンロードやモデルの初期化作業に1分ほどかかる。これらの作業自体は自動で進むので、作業が完了次第プログラムが起動する。

 起動すると、画像とテキスト、音声の生成が始まる。初回起動時には「バレンタインデーの学校で女学生の{ひまりちゃん}がさゆり先輩にチョコレートを渡しながら告白。|(2girls, holding gift box: 1.4)」というテキストが指定されており、これに沿ったものがどんどん生成されていく。

テキスト生成ログウインドウ。英語を生成して日本語訳している
音声読み上げウインドウ。これら3つのウインドウが並行して動作する

 画像は数秒ごとに新しいものが生成される。テキストも次々に生成され、音声が途切れることなく会話が続く。内容は指示したテキストをベースに、少しずつ変化を付けたものになっており、繰り返すほどにバリエーションが増えていく。

 例えば上のテキストだと、さゆり先輩がバレンタインチョコを受け取って喜んだり、彼氏がいるから受け取れないと言ったりとパターンが分かれる。会話の流れは概ね成立しているが、若干不自然な展開もある。



 画像は指示されたテキストに合わせて生成されているようで、生成されたテキストと必ずしもマッチした内容にはならない。

 指示するテキストを修正するには、画像生成ウインドウの上部にあるテキストボックスの内容を修正する。半角波括弧「{}」でくくられた中に主役となるキャラクターを入れる必要があり、それ以外は自由に記述して構わない。後ろに半角括弧「()」で記述している英単語は画像生成を適切にするための指示だ。

指示するテキストの内容を変更すると、生成される画像の内容も変化する
生成画像だけでなく、生成テキストや読み上げ音声も指示に合わせて変化する

 テキストの内容を修正している間も、生成は止まらない。修正したテキストに合わせて、生成される内容も変化していく。プロンプトや生成量などを細かく指定していざ生成を開始という形ではなく、だらだらと生成を続けながらいじっていくという感じになる。

 作者のZuntan氏は「雑然と生成する」と説明している。「EasyZatuGen」という名前は、簡単な指示で、画像やテキストが雑然と生成されていくという意味なのだろう。それでも画像と音声がそれなりに近い形で出力される面白さはあるし、それらが厳密さを求めないで垂れ流すように生成されていくのがユニークだ。

 ちなみに読み上げ音声は女性のモデルで、画像生成も女性を得意としている。男性キャラクターを指定するとテキストは自然に生成されるが、音声や画像は女性寄りのものになる。このプログラムは厳密さを求めるものではないと理解して使いたい。