新たな研究により、ChatGPT が情報を捏造し続ける理由が明らかになりました。

ある日、私は AI言語モデルを活用してコードのデバッグからデータの異常検出まで、突然、彼は私のプロンプトとは全く関係のない、長々とした架空の話をし始めました。あまりにも馬鹿げていて、思わず笑ってしまいました。最近はテキストプロンプトでこのようなエラーはあまり見かけなくなりましたが、画像生成ではまだかなり頻繁に見かけます。

チャットボットはなぜ推測するべきでないときに推測し続けるのでしょうか?

研究によれば、こうした幻覚を引き起こしているのは構造的な問題であり、問題の根本は AI モデルを評価し、自信のある回答に報酬を与える基準とリーダーボードにあります。

つまり、チャットボットが「わかりません」と答えると、テストでペナルティが課せられます。つまり、モデルは、たとえ正しいかどうか確信が持てなくても、常に答えを出すように積極的に促されるのです。

実際には、スマートアシスタントは不確実性を認識するよりも推測する可能性が高くなります。これは、単純な日常的な質問であれば無害かもしれませんが、医療に関する質問から金融アドバイスまで、よりデリケートな状況では、こうした自信過剰の誤りがすぐに現実のリスクに転じる可能性があります。

ベテランユーザーとして、私は常に事実を確認し、チャットボットに情報源を尋ねます。情報が突飛に思えて情報源を尋ねると、チャットボットは「なるほど！」などと、間違いを認めずに返答することがあります。

新しいモデルも例外ではありません。

興味深いことに、OpenAIの論文では、o3やo4-miniのような推論重視のモデルは、一部の古いモデルよりも幻覚を起こす頻度が高いことが分かりました。なぜでしょうか？一般的に、これらのモデルはより多くの主張をするため、エラーが発生する可能性が高くなるからです。

したがって、モデルが推論において「よりスマート」であるからといって、必ずしもモデルが知らないことについてより真実に近い情報を提供するというわけではありません。

この問題の解決策は何ですか？

研究者たちは、解決策はAIの評価と測定方法を変えることにあると考えています。「わからない」と答えたモデルにペナルティを与えるのではなく、より価値の高いテストでは、調整された回答、不確実性の兆候、あるいは他の情報源を参照する能力を評価するべきです。

これは、将来のチャットボットが回答をより曖昧にし、「これが答えです」というアプローチではなく、「これが私の考えですが、確信はありません」というアプローチに頼るようになることを意味するかもしれません。遅く見えるかもしれませんが、有害なエラーを大幅に削減できる可能性があります。これは、私たち自身の批判的思考が依然として重要であることを示しています。

これはあなたにとってどれくらい重要ですか?

ChatGPT、Gemini、Claude、Grokといった人気のチャットボットを使っている方なら、「幻覚」を経験したことがあるかもしれません。今回の研究は、モデル自体の問題ではなく、むしろテスト方法、つまり誰が最も正確に答えられるかを競うゲームのような方法に問題があることを示唆しています。

ユーザーにとって、これはAIの回答を最終的な判断ではなく、最初の提案として慎重に検討する必要があることを意味します。開発者にとって、これは成功の測定方法を再考する時期が来たことを示しています。将来のAIアシスタントが重大なミスを犯すのではなく、自分が知らないことを認識できるようになるためです。

AI言語モデルを活用してコードのデバッグからデータの異常検出まで、