ニュース
「データ構造化向けマルチモーダルAI」をパナソニックが開発、拡散モデルを用いた初の視覚言語モデル
2025年12月4日 11:15
AIエージェント活用へ、現場データの構造化を実現
パナソニックホールディングスは、拡散モデルを用いた初の視覚言語モデル「LaViDa(ラビーダ)」を開発したと発表した。
データ構造化向けマルチモーダルAIと位置づけ、業務現場で使用されている写真や図が入った報告書などを、RAGで検索しやすいデータ形式に変換。AIエージェントに活用し、社内における様々な専門業務の自動化、効率化につなげることができるようになる。
パナソニックホールディングス DX・CPS本部 デジタル・AI技術センターAIソリューション部 1課 課長の小塚和紀氏は、「AIエージェント向けにデータを構造化するために有効な技術になる。写真や図が使われている過去のデータなどもAIエージェントで活用ができるようになる」と述べた。
LaViDaによる特定フォーマットへの生成能力を生かして、各現場のデータを構造化し、RAGやAIエージェントを業務に活用するシーンを増やし、業務の自動化や効率化を図っていくという。
まずは、パナソニックグループ内での利用を想定するが、外部向けサービスにAIエージェントを組み込む際にも活用できるとしている。
「拡散モデル」採用で長文生成を高速化
今回の技術は、拡散モデルを用いているのが特徴だ。
従来のAR(自己回帰)モデルでは、画像の状況を説明するキャプションを生成するために、文頭から1トークンずつ生成するため、長文になるほど、時間がかかるという課題があったが、拡散モデルを用いることで、複数のトークンをまとめて生成するとともに、生成する複数トークンの数も調整できるため、長文になるほど、生成時間において優位性が発揮できるという特徴を持つ。
Panasonic R&D Company of America(PRDCA) AI Laboratoryシニアリサーチエンジニアの加藤祐介氏は、「文章やコードなどの離散データを、拡散モデルで生成する手法が登場しており、ARモデルに比べて、10倍以上高速化される例もあり、注目を集めている」と前置きし、「画像や動画などの連続的なデータの学習に、拡散モデルに使用した場合、ノイズデータからノイズを推定し、画像から徐々にノイズを除去して、完全な画像を復元することができる。一方で、拡散過程を用いた拡散言語モデルでは、文章上のトークンのいくつかをマスキングし、意味のないトークンに変換。それを繰り返すことで、文章の情報を破壊し、最終的には、すべてのトークンをマスクする。その上で、トークンを徐々に復元する処理を繰り返し、意味のある文章に戻して学習することになる」と説明する。
今回開発したLaViDaを、視覚言語モデルと位置づけているように、拡散言語モデル(DLM)による言語の入力に加えて、ビジョンエンコーダを追加して、画像の入力も行って学習。「言語の入出力に特化した拡散言語モデルを転用する形で、画像処理ができるようにした技術になる」としている。
独自技術で推論処理の重さを解消
だが、視覚言語モデルでは、拡散モデルをベースにして、そのまま解く場合に課題が発生する。拡散モデルそのものは、文字トークンであれば高速化できるが、画像トークンを加えた場合、1回あたりの推論処理が重くなるため、ARモデルよりも、1回の推論処理が遅くなってしまうのだ。
「ARモデルは、先頭から1トークンずつ生成しており、すでに生成したトークンは不変であり、その部分は、アテンション計算から省くことができる。それに対して、拡散モデルでは、すべてのトークンが常に変化する可能性があるため、アテンション計算はすべてのトークンに対して必要となり、結果として、推論処理が重くなる」と説明。「パナソニックホールディングスでは、トークンの中身をつぶさに確認し、アテンション計算が省略できる部分を捉え、推論の高速化を実現した」という。
同社では、生成するトークンのうち、入力画像と質問文に対するトークンは、生成中も不変であるため、それらを固定。拡散モデルのアテンション計算のなかから省くことにしたという。これにより、アテンション計算は、解答トークンの部分だけで済み、精度を変えずに高速に処理できるという。
さらに、学習時においては、補完的マスキング学習を採用。特定の単語が確実にマスクされるように学習方法を工夫したという。
「トークンをランダムにマスクした場合には、予測に重要な単語がうまくマスクされない可能性がある。それによって、画像とは関係がないトークンだけが学習されるという状況が生まれる。文章のなかで重要なトークンをマスキングする技術を開発することで、これを解決することができた。相補的な2通りのマスキングを用意することで、どの単語も毎回必ず学習させることができる」という。
性能は既存モデルの1.92倍
今回、開発した「LaViDa」を評価したところ、自然画像理解、数学、科学、チャート・グラフ理解といった、様々なデータにおいて、同規模の学習データ量において、既存のARモデルを上回ったという。また、生成効率については、ARモデルに比べて、1.92倍の高速化を達成したことも証明した。
「成果の一例として、LaViDaを利用することで、テキスト穴埋めタスクが可能になる。プロンプトによる細かい指示が不要で、詩の穴埋め生成でき、テーマに沿った詩を、高精度につくることができる。ARモデルに比べて59%の性能向上を図ることができた」という。
パナソニックグループは、2025年1月に米ラスベガスで開催したCES 2025において、AIを活用したビジネスへの変革を推進するグローバルな企業成長イニシアティブとする「Panasonic Go」を発表。AI開発やプラットフォーム構築への投資や、ソフトウェア開発人材の育成を進め、2035年までに、AIを活用したハードウェアやソフトウェア事業、ソリューション事業を、グループの売上全体の約30%に拡大することを打ち出している。
そのなかで、パナソニックホールディングス技術部門は、Panasonic Goの趣旨に則り、AI開発やプラットフォーム構築に貢献する活動を推進。また、幅広い事業領域に対してドメイン知識を持つ人がAIを使いこなすことに取り組み、AIに関しては、外部技術を積極的に活用していく姿勢を取っている。
パナソニック ホールディングスは、UCLA(カリフォルニア大学ロサンゼルス校)の研究者と共同で、推論時にAIが自らの生成結果を振り返って改善する画像生成技術「Reflect-Dit」を開発しており、今回の技術も、UCLAとの連携によって開発。生成AIのデータ構築に関する技術と位置づけており、得られた現場のデータを幅広い事業領域や、業務効率化に生かしていくことになる。





















![1冊ですべて身につくHTML & CSSとWebデザイン入門講座[第2版] 製品画像:3位](https://m.media-amazon.com/images/I/41DiWc47MYL._SL160_.jpg)






