ニュース
Meta、次世代大規模言語モデル「Llama 3」を発表、まもなく利用可能に
8Bおよび70Bパラメーターのモデルを先行提供。最大モデルは400B超
2024年4月19日 10:16
米Metaは4月18日(現地時間)、大規模言語モデル「Meta Llama 3」を発表した。昨年7月にリリースされた「Llama 2」の後継で、まずは8Bおよび70Bパラメーターのテキストベースモデルが提供される。多言語・マルチモーダルのモデルも投入予定だ。
「Llama 3」はシンプルさを追求しつつも、優れた言語モデルを開発するために必要なモデルアーキテクチャーの革新、事前学習のスケールアップ、ポストトレーニング手順の改善という3点において、いずれも最新の知見が導入された。標準的なベンチマークにおけるモデル性能はもちろん、高品質の人間評価セットを新たに投入するなど、実世界のシナリオにおける性能も重視されており、その結果、誤拒否率が大幅に減少し、アライメントが改善され、モデル応答の多様性が向上。また、推論やコード生成、指示に従う能力も大幅に改善されており、より使いやすくなっているという。
現行の「Llama 2」と比較すると、トークンの生成数は最大15%減少。「Llama 3 8B」はモデルのパラメーターが1B多いにもかかわらず、改善されたトークナイザー効率などが寄与して「Llama 2 7B」と同等の推論効率を維持しているという。
さらに、「Llama 3」はモデルの安全性確保にも配慮されている。「Llama Guard 2」、「Code Shield」、「CyberSec Eval 2」といったシステムレベルの信頼・安全ツールが新たに導入されており、アプリケーションに適したコンテンツガイドラインに従ったチェック・フィルター処理が可能だ。
「Llama 3」は、主要なプラットフォームでまもなく利用可能となる。現在トレーニング中の最大モデルはパラメーターが400Bを超えるとのことで、今後も継続的な改善が期待できる。