ニュース

フルスクラッチ開発の日本語動画生成AI「AIdeaLab VideoJP」が無償公開 ~十数秒で生成、商用利用も可能

日本語と英語の文章がそのまま通じる軽量モデル

日本語と英語の文章が直接入力可能な動画生成AI「AIdeaLab VideoJP」

 (株)AIdeaLabは1月15日、日本語と英語の文章が直接入力可能な動画生成AI基盤モデル「AIdeaLab VideoJP」を公開した。モデルは商用利用可能で、Hugging Faceにて無償でダウンロード・利用できる。ライセンスは「Apache License 2.0」。

 「AIdeaLab VideoJP」は、著作権やライセンスに配慮してフルスクラッチで開発された軽量な動画生成モデル。プロンプトとして入力される日本語を日本人の話す感覚と近いかたちで処理し(具体的には入力テキストを処理するLLMに「llm-jp-3-1.8b」を採用)、十数秒で動画の生成を可能としているのが特徴。

 日本語と英語の文章がそのまま通じるモデルとして、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する、日本国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」の成果をもとに作成された。

「AIdeaLab VideoJP」の生成例
「チューリップや菜の花、色とりどりの花が果てしなく続く畑を埋め尽くし、まるでパッチワークのようにカラフルに彩る。朝の柔らかな光が花びらを透かし、淡いグラデーションが映える。風に揺れる花々をスローモーションで捉え、花びらが優雅に舞う姿を映画のような演出で撮影。背景には遠くに連なる山並みや青い空、浮かぶ白い雲が立体感を引き立てる。」というプロンプトで生成された動画

 また、本モデルでは学習に対して許諾が得られている動画を原則使用。機械学習する際に著作物の改変が発生しうると仮定した上で(著作権法 第30条の4)、次の条件を満たす動画のみを機械学習に用いるとしている。

  • 動画は改変が許されるライセンスである
  • 動画は改変しても商用利用可能である
  • 動画はライセンスを変更してもよい

 この3つの条件を満たすライセンスの動画は、主にCC-BY-4.0、CC-0になる。具体的には学習用データセット「FineVideo」および「Open-Sora-Plan v1.0.0」に含まれる動画のみが使用された。

 ほかにも、「AIdeaLab VideoJP」では、Rectified Flow Transformerという推論速度の早い最先端アルゴリズムであるフローマッチングを使用。Rectified Flow Transformerのよいところは規模によっては家庭のGPUでも動くこと。本モデルは最小14GBのVRAMを持つGPUで動作し、家庭でも動く推論速度の早さを実現している。

 なお、AIdeaLabは、本モデルの学習動画に対する透明性は限りなく高いと考えているとのことだが、もし問題のある動画を見つけた場合、今後の開発のため報告してほしいと呼び掛けている。