ニュース

商用可能な日本語画像言語モデル「Japanese Stable VLM」、Stability AIがリリース

キャプショニング機能に加え、画像に対する質問にチャット形式で回答もできる

Stability AI、商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリース

 Stability AIは11月13日、商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースした。公開中のGoogle Colabページにて試用できる。

 「Japanese Stable VLM」は、「Japanese Stable LM Instruct Gamma 7B」をベースとした日本語画像言語モデル。VLMはVision-Language Modelの略。入力した画像に対して文字で説明を生成できる画像キャプショニング機能に加え、画像についてのユーザーの質問に回答することもできる。

画像に対する質問にチャット形式で応答ができる

 また、商用利用可能なライセンスで提供されるなど、研究目的で作られた初期のバージョン「Japanese InstructBLIP Alpha」(非商用利用に限定)とは下記の4点が異なる。

  • 商用利用可能なライセンスで提供(一部の場合、条件が適用される)
  • 最新手法の「LLaVA-1.5」のモデル構造・学習手法を適用
  • ベースとする言語モデルを「Japanese Stable LM Instruct Gamma 7B」にした、商用利用可能ライセンス
  • 新たに独自開発した、出力キャプションで使ってほしい単語を入力することが可能な「タグ条件付きキャプショニング」機能に対応

 同社によると、「Japanese Stable VLM」を利用することで、例えば、チャット形式で画像の要素について応答できるほか、動画のフレームを抜き取ることで、動画キャプショニングやリアルタイム動画の質問応答も可能だという。

「タグ条件付きキャプショニング」を使った出力例。「きふ屋」や「ラムネの旗」と出力されていることがわかる

 なお、「Japanese Stable VLM」の学習データからは、クリエイターから要求があったオプトアウト、およびrobot.txtや利用規約に基づく禁止データは除外されているとのこと。