ニュース

OpenAI、呪文で3Dモデルを生成するAI「Point-E」 ~そこそこの品質で従来より1~2桁高速

実装はオープンソースに

OpenAI、複雑なプロンプトをもとに3Dモデルを生成するAI「Point-E」を発表。実装を「GitHub」で公開

 OpenAIは、複雑な文章による指示(プロンプト)をもとに3Dモデルを生成するAI「Point-E」を発表した。論文とともに、それを実装したコードベース(Pythonスクリプト)が「GitHub」で公開されている。ライセンスは「MIT」。

 テキストから3Dモデルを合成する手法はすでに多くの先行研究があり、有望な結果が得られている。しかし、そうした最先端の手法は通常、1つのサンプルを生成するのに複数のGPUを使っても非常に長い時間を要する。

 また、複雑で多様なテキストプロンプトを扱えないという問題もある。同じくOpenAIが開発した「DALL-E」に代表されるように、最近の画像AIはかなり複雑なプロンプトを与えても、ユーザーのイメージに近い画像を短時間で生成できる。しかし、3Dモデルでそれを行うのはまだ難しい。

 そこで、編み出されたのが3Dモデルを生成するプロセスを2段階に分ける手法だ。まず画像AIを用いてテキストプロンプトを条件とする画像を生成する。次に、その画像を条件とするて3Dオブジェクトをサンプリングする。こうすることで、従来の手法よりも1~2桁早く、ユースケースによっては十分に実用的な3Dモデルを生成できるという。

基本的な仕組み

 一方で、この手法には合成レンダリングが必要であったり、生成される3Dモデルの点群が比較的低解像度で、細かな形状や質感を把握することができない。点群をメッシュに変換する過程で誤った解釈が行われ、意図しない歪みや欠落が発生することもあるようだ。

テキストプロンプトから生成された点群の例
点群からメッシュへの変換。おおむねうまくいくが、細かい部分は解釈がうまくいかずゆがんだり、欠落することもある

 とはいえ、柔軟なプロンプトに対応可能な点と、生成速度が桁外れに高速である点は大きなメリットであるといえるだろう。もしこの手法が洗練されれば、ゲームやアニメーションの制作現場に大きなインパクトを与える可能性もある。