ニュース
日本語プロンプトから“浮世絵風画像”を生成できる「Evo-Ukiyoe」、日本発のSakana AIが公開
古典籍の挿絵をカラー化するAIモデルも発表
2024年7月23日 11:35
AIスタートアップのSakana AI(株)は7月21日、浮世絵風画像生成AIモデル「Evo-Ukiyoe」および、浮世絵カラー化モデル「Evo-Nishikie」を発表した。研究・教育利用を目的とするユーザーに対し、「Hugging Face」にてモデルとデモを公開している。
「Evo-Ukiyoe」は、日本語のプロンプトを入力すると浮世絵風の画像を生成するAIモデル。風景や着物姿の人々など、浮世絵によく取り上げられる題材については、実物の浮世絵に近い品質で生成できる。また「Evo-Nishikie」は、単色摺の浮世絵(墨摺絵等)を入力すると、多色摺の浮世絵(錦絵)風の画像を生成するモデル。墨一色で印刷された江戸時代の本(古典籍)の挿絵をカラー化したり、多色摺の錦絵を別の色に変換して出力したりする目的にも利用できる。
浮世絵は日本を代表する美術のひとつであり、世界的にも知名度が高く人気があるため、画像生成モデルの世界でも、多くの人々が浮世絵風画像の生成に取り組んできた。しかし、既存の画像生成AIモデルは浮世絵に重点を置いた学習を行なっていないため、プロンプトに「浮世絵(Ukiyoe)」と入力しても、日本的要素を含むイラストレーション風の画像など、あまり浮世絵らしくない画像が生成されてしまう状態だという。
そこで、「Evo-Ukiyoe」および「Evo-Nishikie」両モデルは、Sakana AIが進化的モデルマージによって構築した日本語対応画像生成モデル「Evo-SDXL-JP」を基盤とし、学習データセットには立命館大学アート・リサーチセンター(ARC)所蔵浮世絵作品のデジタル画像24,038枚を利用。浮世絵画像を大規模に学習することで、どちらも日本語に対応し、かつ浮世絵の特徴を学んだ画像生成モデルに仕上げられている。
同社は、今回のAIモデルを通じて、日本の伝統文化の魅力を次世代に・世界に広めるとともに、教育などへの活用や古典籍の新しい楽しみ方など、多くの人々に活用されることを期待しているとのこと。
「Evo-Ukiyoe」
「Evo-Ukiyoe」は、Text-to-Imageモデルで、画像データとキャプションのペアを学習データセットとしている。
浮世絵画像の内容を説明するキャプションを付与するために、大規模マルチモーダルモデルを用いて、Few-shot promptingによりキャプションを生成。キャプションの間違い(人物の性別など)を人手で修正するとともに、Evo-SDXL-JPの最大プロンプト長(77トークン)に合わせて、キャプションを短くする、明確な特徴のみを加える、鳥籠模様や梅花模様などの複雑な専門用語を削除する、などの調整が行なわれている。
生成時には、プロンプトを入力して画像を生成する。ただし、浮世絵により近い画像を生成するには、桜、富士山、着物、鳥など、浮世絵でよく取り上げられる要素をプロンプトに含めると効果的とのこと。一方、江戸時代に存在しないもの(パソコンやハンバーガーなど)も生成はできるが、学習データセットに存在しないものを浮世絵風に生成することは難しく、全体として浮世絵らしくない画像が生成されることがある。
「Evo-Nishikie」
「Evo-Nishikie」は、Image-to-Imageモデルで、プロンプトと条件画像のペアを学習データセットとしている。プロンプトについては「この画像をカラーにしてください」といった簡潔な固定プロンプトを全画像に適用。条件画像については、元の画像の情報をある程度保持しながらクリエイティブに生成する余地を残す「Lineart」が用いられている。
ただし、浮世絵画像には虫食いやシミ、劣化などが含まれるため、ノイズ処理が必須となる。そこで、ControlNet-AuxライブラリーのLineartDetectorを適用し、OpenCVによるノイズ除去を行ない、2値化で元画像の濃淡情報を除去するという手順で、条件画像を作成している。
なお、生成時には、元となる画像を指定すればカラー化は可能。より美しくカラー化するには、生成したい色や対象物に関する具体的な指示をプロンプトに含めると効果的とのこと。