ニュース

約1,000万枚からなるAIモデル開発用画像データ、AI Picassoが無償公開

著作権に配慮、キャプション付きで

AI Picasso開発チームのnote

 AI Picasso(株)は7月31日、約1,000万枚からなる著作権に配慮した画像生成AI開発用データを無償公開した。Hugging Face上において、CC-0(権利者が自分の作品を能動的にパブリックドメインに置いたもの)相当の画像データセットに対する説明文データセット「megalith-10m-florence2」および、CC-0だけで構成されたテキスト画像データセット「soa-full-florence2」の2つが公開されている。

 今回の無償公開について、同社は「(画像に対する学習許可を得ていないため、)画像生成を使ってみたいが使えないクリエイターやファンの方がいる」という課題を踏まえ、日英画像生成モデル「CommonArt」の開発過程で制作された「megalith-10m-florence2」および「soa-full-florence2」に説明文(キャプション)を付けることを決定。データセットを「テキストからの画像生成の開発や視覚言語モデルの開発などにお使いください」としている。

「megalith-10m-florence2」

 「megalith-10m-florence2」は、madebyollin氏が作成したCC-0相当の写真画像を集めた画像リンク集「Megalith-10M」に、各画像のキャプションをつけたデータセット。「Megalith-10M」には約1,000万枚の画像リンクがまとめられている。また、入念な下処理が施されており、機械学習に利用する分には著作権を侵害することはないとのこと。

「megalith-10m」に収録されている画像の例

 「megalith-10m-florence2」のキャプション付けには、Microsoftがオープンソース化したマルチモーダルモデル「Florence-2」を使用。画像に対して効率的にキャプションをつけることができるほか、ライセンス上、画像に付けたキャプションには特に制限はない。「GPT-4V」との競合など、ライセンスのことを気にせずに利用できる。

「soa-full-florence2」

 「soa-full-florence2」は、スミソニアン協会が公開している情報をもとに、madebyollin氏が作成したCC-0の絵画などを集めた画像リンク集「soa-full」にもとづいて作られたデータセット。「soa-full」には約300万枚の画像リンクがまとめられている。「soa-full-florence2」では、開発者が使いやすいようにテキストと画像がセットになって公開されている。

「soa-full」に収録されている画像の例

 著作権が切れた画像だけで構成されているため、機械学習に利用しても著作権を侵害することはないとのこと。「soa-full-florece2」のキャプション付けにも「Florence-2」が使用されている。