ニュース

GPTに変化球。ChatGPTのエラーを見つけ出すための新モデル「CriticGPT」、OpenAIが発表

「RLHF」の際に人間のAIトレーナーを支援

OpenAI、新AIモデル「CriticGPT」を発表

 米OpenAIは6月27日(現地時間)、同社が提供する大規模言語モデル(LLM)「GPT-4」をベースとした新AIモデル「CriticGPT」を発表した。LLMの強化学習に利用するGPTモデルとして、現在「ChatGPT」の比較的短い回答を対象にトレーニング中。

 「CriticGPT」は「ChatGPT」のコード出力時におけるエラーを検出できるようにするためのモデル。「RLHF」(人間からのフィードバックによる強化学習)の際に、「ChatGPT」の回答の不正確な点を指摘することで、人間の「AIトレーナー」を支援し、より精度の高いトレーニングを実現するとしている。

「CriticGPT」

 「ChatGPT」は「RLHF」を通じて、有用かつインタラクティブなモデルになるように調整されている。「RLHF」では、人間の「AIトレーナー」がChatGPTのさまざまな回答を比較・評価し、その結果をAIのトレーニングにフィードバックしていく。しかし、モデルの推論能力と挙動が進歩するにつれて、ChatGPTの生み出す誤りがより微妙なものになったことにより、AIトレーナーがそういった不正確な点を発見することが困難になっているという。これは「RLHF」の根本的な限界であり、モデルの能力がフィードバックを提供する人間を上回っていくにつれて、モデルの調整はますます困難になる可能性がある。

 そこで、同社は「CriticGPT」を開発。上記の課題を解決するために「CriticGPT」は、ChatGPTによる回答の不正確な点を指摘するレビューを作成してくれる。

 「CriticGPT」は、ChatGPTと同様に「RLHF」でトレーニングされているが、ChatGPTとは異なり「CriticGPT」は、誤りを含む大量の入力データを学習に使用し、それらをレビューするようトレーニングされている。トレーニング方法は、AIトレーナーがChatGPTによって記述されたコードに手動で誤りを挿入し、その誤りを発見したかのようなサンプルのフィードバック例を作成。次に同じトレーナーが修正・変更されたコードに関する複数のレビューを比較し、どのレビューが挿入された誤りを正しく指摘しているかを評価するという形となっている。

 同社は「CriticGPT」の提案は常に正しいとは限らないとしているが、「CriticGPT」を使用することで、トレーナーが単独で作業する場合よりも包括的なレビューが得られ、ハルシネーション的な誤りも少なくなったという。実験では「CriticGPT」の支援を受けていない人からのレビューよりも、「Human+CriticGPT」チームからのレビューの方が、60%以上のケースでパフォーマンス向上につながったという結果が得られたとのこと。

「CriticGPT」の効果。包括的なレビューを書くのを助け、モデル単独でレビューを作成するよりもハルシネーションが少なくなる

 なお、「CriticGPT」の今後について、同社は、ますます複雑化するAIシステムを調整するには、より優れたツールが必要という考えのもと、より長文で複雑なタスクにも対応できるよう「CriticGPT」の開発・改良を進めていくとしている。