ニュース

複数の画像を扱える日本語視覚言語モデル、Sakana AIが公開

「進化的モデルマージ」で構築、非英語圏における嚆矢に

Sakana AI、複数の画像を扱える日本語視覚言語モデルを公開

 AIスタートアップのSakana AI(株)は8月2日、複数の画像について質疑応答できる日本語視覚言語モデル(VLM)「Llama-3-EvoVLM-JP-v2」および、複数の画像に関する日本語での質疑応答能力を評価するためのデータセット「Japanese multi-images visual question answering(JA-Multi-Image-VQA)」を公開した。Hugging Face上ではすぐに試せるデモも用意されている。

 「Llama-3-EvoVLM-JP-v2」は、同社が提案する開発手法「進化的モデルマージ」を活用して構築されたAIモデル。複数の画像に対して日本語で質疑応答ができるのが特徴だ。「複数の画像を扱える英語のVLM」「日本語の能力に長けたLLM」「単一画像の説明能力が高いVLM」の3つのモデルを組み合わせることで、複数の画像について説明を求めたり、文章の途中に画像情報を埋め込むことができる。

 ベースは、米Metaが公開しているオープンLLM「Llama-3」。このモデルを使用することで、Sakana AIが過去にリリースしたVLMと比較して、多くの評価指標において性能が向上したモデルを構築できたとしている。

「Llama-3-EvoVLM-JP-v2」の応答例

 最近では、単一画像の描写や質疑応答の性能向上だけにとどまらず、動画や複数画像を扱える機能を持ったVLMの研究が進んでいる。一方で、このような新しいタイプのVLMは、基本的には英語圏で開発されており、日本語を含む非英語圏で複数の画像を扱えるAIモデルはほとんど存在していないという。

 今回、新たなVLMを構築するにあたり、数多くあるLlama-3を用いて作成されたVLMの中より、入力画像を入力文章の任意の位置に配置できる「Mantis-8B-SigLIP-Llama-3」を選択。また、日本語能力を獲得させるために日本語LLM「Llama-3-ELYZA-JP-8B」を使用し、まずこの2つのモデルをマージすることで「複数の画像を扱える日本語のVLM」の構築に成功した。さらに、画像描写能力を補強するために英語VLM「Bunny-v1.1-Llama-3-8B-V」のLLM部分もマージに加えている。

 Sakana AIは、今回の「Llama-3-EvoVLM-JP-v2」を評価するため、新たに評価用データセット「JA-Multi-Image-VQA」を作成した。このデータセットでは、関連のある複数の画像の組み合わせをWebで収集し、それらに対して複数の質疑応答ペアを日本語で与えていくというもので、評価方法は「GPT-4o」によるスコアリング方法を採用。結果は、モデルのベースとなった「Mantis-8B-SigLIP」よりもスコアが大きく上昇しており、進化的モデルマージにより複数画像に対して日本語で応答する能力を獲得できていることが示された。

ベースモデルよりも約4倍差のスコアを示した「Llama-3-EvoVLM-JP-v2」

 同社は、「進化的モデルマージ」を低コストですぐにプロトタイプモデルを構築できる手法であり、日々の発展が著しい分野において研究や開発を加速できる価値の高い手法であると考えているという。今回のリリースでモデルを公開したことに加え、評価用のデータセットも公開したのはオープンソースコミュニティへの貢献を意図しており、今後も最先端のクローズドモデルに並ぶ日本語モデルの研究開発に取り組んでいくとしている。