柳谷智宣のAI ウォッチ!

高性能な推論能力の代償として増えるハルシネーション ~AIの“幻覚”は不具合か、それとも仕様か

推論モデルの「強み」と「弱み」を知る[後編]

 本連載「柳谷智宣のAI ウォッチ!」では、いま話題のAI(生成AI)を活用したサービスを中心に取り上げていく(基本的に1サービスにつき前後編を予定)。今回は推論モデルとハルシネーションの関係を考える。
ハルシネーションをうまく付き合う5つの方法をチェック!

 OpenAI最新の推論モデル「o3」の実力は凄まじい。テストによっては人間の能力を超えており、マルチモーダルに対応し、画像以外のファイルも扱える。前編ではそのすごさを体感できる活用術を紹介した。

 しかし、喜んでばかりもいられない。実は、o3は従来のAIモデルよりもハルシネーションの発生確率が高まっているのだ。生成AIはその仕組み上、そもそもハルシネーションが起きる可能性はある。

 今回は、生成AIのハルシネーションとどう向き合っていくべきなのかを考えてみたい。

生成AIにハルシネーションはつきもの、特に「o3」は多い

 大規模言語モデル(LLM)における「ハルシネーション(幻覚)」とは、入力や外部知識に整合しない内容を生成する現象のこと。生成AIの仕組み上、発生してしまうものだが、ユーザーからするとしれっと嘘をつかれたことになるので困ってしまう。

 これは、今でも解消していないどころか、OpenAIが公開したレポートでは、なんと最新の推論モデルであるo3のハルシネーション率が従来のAIモデルよりも高くなっているというのだ。

 「o4-mini」などはサイズがコンパクトなので、知識が限定的になり、ハルシネーション率が高まるのは理解できるが、最高性能のo3がミスをするというのも驚きだ。もちろん、正答率は高いのだが、同時により多くの情報を出力しようとするあまりにハルシネーションも出てしまうとのこと。

 「o1」の正答率とハルシネーション率は、シンプルな問題では「0.47」でハルシネーション率は「0.44」だった。これが「o3」だと、正答率が「0.49」とアップするものの、ハルシネーション率が「0.51」と半数を超えてしまうのだ。

表:ハルシネーション評価結果
データセット指標o3o4-minio1
**SimpleQA**正確度(高いほど良い)0.490.200.47
ハルシネーション率(低いほど良い)0.510.790.44
**PersonQA**正確度(高いほど良い)0.590.360.47
ハルシネーション率(低いほど良い)0.330.480.16

ハルシネーション対策1:大きいAIモデルを利用する

 だからといって、生成AIのミスを鬼の首を取ったように、SNSで晒上げてけなすのも恥ずかしいのでやめておいた方がよい。

 フライパンが焦げた写真を得意げにアップするのと同じで、それは結局、自分が安物のフライパンを選んだか、料理の腕前が足りないかを世間に晒しているようなものに過ぎない。つまり、AIの揚げ足取りに夢中になるほど、自分のリテラシー不足や視野の狭さを自らアピールしてしまうことになるのだ。

 いまのところ、ハルシネーションは起きるのだから、その前提で活用したほうが賢いし、カッコいい。道具を使いこなすには、ユーザーの腕が必要になる。

 まず、ハルシネーションを気にするなら、大きいAIモデルを利用すること。出力速度が遅くなるが、仕方がない。ChatGPTなら「o4-mini」よりも「o1」や「o3」を利用しよう。

 ChatGPT Proの契約者であれば、出力に数十分かかることもあるが「o1 Pro mode」もクオリティが高くお勧め。「o3」で試行錯誤しつつ、「o1 Pro mode」をバックグラウンドで動かしておく、という使い方をすれば、時間を無駄にせずに済む。

 なお、無料プランでは小さいモデルや古いモデルしか使えないこともある。例えば、ChatGPTの無料プランでは「o3」は利用できない。

ハルシネーションを減らしたいなら“mini”ではなく、大きなモデルを利用しよう

ハルシネーション対策2:プロンプトエンジニアリング

 プロンプトに「わからないことはわからないと答える」と明確な指示を入れるのも有効だ。

 AIが確証のない回答を出力するの避け、知識の限界を正直に認めるよう促すことで、誤情報の生成リスクを低減できる。特に専門的知識や最新情報を必要とする分野では、不確かな推測よりも回答できないという誠実な応答の方が利用価値が高い。

ハルシネーションが起きやすいテーマはわからない回答を許容するとよい

 情報源の透明性確保のため、「参考文献を3件挙げ、URLかDOIを示せ」といった具体的な裏付けを要求するのも有効だ。情報源を開示できない回答は「不明」として扱うよう指示することで、検証の必要性が高まる。

 ReAct形式による思考過程の可視化や自信度の定量的表明も、ハルシネーションの軽減に役立つ。「回答後に10段階で自信度を示し、理由と出典を簡潔に説明してください」といった指示により、AIの過剰確信を抑制できる。

 さらに、長時間の対話における文脈の散乱を防ぐため、「ここまでの要点を300字でまとめて」と定期的に要約させ、次の質問の冒頭で再提示する方法も効果的である。これにより会話の一貫性が保たれ、誤解にもとづくハルシネーションの発生確率を下げることができる。

 試しに、世に情報のない海底熟成ウイスキーについて質問してみた。味が変化する理由を聞いてみると、なにも指示しないと「温度や水圧」と回答してくる。しかし、わからない場合はわからないと回答せよと指示すると、AIは「振動が原因だ」という情報を検索してくる。しかし、その裏付けデータが見つからなかったので、最終的に「わかりません」と回答してきた。ここからの判断は、ソースをチェックし、人間が判断すればよい。

ハルシネーション対策3:複数の生成AIで多段階確認

 手軽で効果の高いハルシネーション対策は、同じプロンプトを複数の生成AIで動作させること。明らかな誤情報であれば、同じAIモデルで再度出力するとハルシネーションが解消されることがあるが、何度試しても出力されることもある。そうしたときは、異なるAIモデルで試すとよい。

 例えば、OpenAIのGPTシリーズは、創造性豊かで人間らしい自然な文章生成に長けているが、事実にもとづかない情報を自信を持って提示してくることがある。Geminiは豊富な最新情報にもとづく回答が強みだが、特定分野では不正確な場合もある。なかでも、AnthropicのClaudeは慎重な回答傾向があり、ハルシネーションを避ける特性を持っている。

 これらの特性を活かし、重要な事実確認は複数のAIで照合し、さらに専門性の高い内容では3つ以上のAIによる多段階確認をお勧めする。各AIの回答の一致点と相違点を分析することで、より信頼性の高い情報を得られるだろう。

 もちろん、それぞれのAIサービスのWebページを開き、プロンプトをコピペしていってもよい。とはいえ、それだと手間がかかるので、最大6個のAIモデルを同時に利用できる「天秤AI」の利用をお勧めしたい。このサービスは無料で利用可能で、出力の違いを一目で比べられるので便利だ。

生成AI比較検索サービス「天秤AI」なら最大6個のAIを同時に利用できる

ハルシネーション対策4:RAGを利用する

 ハルシネーション対策の王道ともいえる手法が「Retrieval-Augmented Generation(RAG)」だ。

 生成AIにソースとなる情報を丸ごと渡し、質問時にはその全文を検索させて処理させる方法であり、回答の根拠が手元の一次資料に限定され、誤情報の混入を大幅に軽減できる。マニュアルや議事録などのTXTやPDFファイルをアップロードし、「添付のソースを参照して回答してください」といったプロンプトを利用すればよい。

 RAGに特化した生成AI「Google NotebookLM」も便利だ。ノート単位でファイルをアップロードし、RAGを構築。Geminiを利用した高品質な出力が得られる。

手軽にRAGを利用するなら「Google NotebookLM」が便利。画面はAI事業者ガイドラインをアップして質問しているところ

 もっともRAGにも弱点はある。

 与えた資料の範囲外の知識にはアクセスできず、網羅性の低いコーパスでは「わからない」としか返さないケースもある。参照する情報源に誤りや偏りがあった場合、それがそのまま回答に反映されてしまう可能性も高い。また、資料が更新されるたびに再アップロードが必要で手間がかかるという課題もあるので、それは頭に入れておこう。

ハルシネーション対策5:最後は人の目で確認

 最後はやっぱり人の目によるチェックが欠かせない。人間が作成した資料でも、外部に提出・公開する前には他の人がチェックしているはず。AIが生成した成果物でも同じように対応すればよいだけだ。

 内容のファクトチェックやクオリティチェックを行う際、ファクトチェックをしてくれるAIエージェントもあるのが、成果物を丸ごと入れてチェックさせるとまだまだ見逃しがある。重要な文書であれば、人間が怪しいと思った項目それぞれを手動でチェックすることをお勧めする。

 とはいえ、それも生成AIを活用しようと思えばできる。チェックするフレーズや文章を入れて「ファクトチェックしてください。また、そのソースも明記してください」というプロンプトを使えばよい。

 ビジネスシーンでは組織的にアプローチする必要がある。生成AI活用のガバナンス体制をきちんと構築し、人間のチェックというポリシーを策定しておこう。

インプレスの住所について間違った情報でファクトチェックしてみた

五つの基本動作を当たり前のようにルーチン化しよう

 高性能なAIモデルの世代交代が進むほど、生成AIはより雄弁になり、同時にハルシネーションが紛れ込んでも一目ではわからないようになっている。

 だからこそ人間は、AIモデルの選択、プロンプト設計、多段階確認、RAG、人の目による最終レビュー、という五つの基本動作を当たり前のようにルーチン化する必要がある。ハルシネーションは不具合ではなく仕様、そう腹をくくり、手間を惜しまず手綱を握るユーザーこそが、生成AIを活用し、業務効率アップの恩恵を受けられるようになるだろう。

著者プロフィール:柳谷 智宣

IT・ビジネス関連のライター。キャリアは26年目で、デジタルガジェットからWebサービス、コンシューマー製品からエンタープライズ製品まで幅広く手掛ける。近年はAI、SaaS、DX領域に注力している。日々、大量の原稿を執筆しており、生成AIがないと仕事をさばけない状態になっている。

・著者Webサイト:https://prof.yanagiya.biz/

柳谷智宣のAI ウォッチ! 記事一覧