ニュース

OpenAI、呪文で3Dモデルを生成するAI「Point-E」～そこそこの品質で従来より1～2桁高速

実装はオープンソースに

樽井秀人

2022年12月21日 15:18

OpenAI、複雑なプロンプトをもとに3Dモデルを生成するAI「Point-E」を発表。実装を「GitHub」で公開

　OpenAIは、複雑な文章による指示（プロンプト）をもとに3Dモデルを生成するAI「Point-E」を発表した。論文とともに、それを実装したコードベース（Pythonスクリプト）が「GitHub」で公開されている。ライセンスは「MIT」。

　テキストから3Dモデルを合成する手法はすでに多くの先行研究があり、有望な結果が得られている。しかし、そうした最先端の手法は通常、1つのサンプルを生成するのに複数のGPUを使っても非常に長い時間を要する。

　また、複雑で多様なテキストプロンプトを扱えないという問題もある。同じくOpenAIが開発した「DALL-E」に代表されるように、最近の画像AIはかなり複雑なプロンプトを与えても、ユーザーのイメージに近い画像を短時間で生成できる。しかし、3Dモデルでそれを行うのはまだ難しい。

　そこで、編み出されたのが3Dモデルを生成するプロセスを2段階に分ける手法だ。まず画像AIを用いてテキストプロンプトを条件とする画像を生成する。次に、その画像を条件とするて3Dオブジェクトをサンプリングする。こうすることで、従来の手法よりも1～2桁早く、ユースケースによっては十分に実用的な3Dモデルを生成できるという。