OpenAI揭示AI“幻觉”深层原因及解决之道
OpenAI研究人员宣布,他们已攻克影响大语言模型(LLM)性能的最大障碍之一:普遍存在的“幻觉”问题。
何为AI“幻觉”?
当大语言模型生成不准确的信息,并将其当作事实呈现时,便会产生“幻觉”现象。这一问题困扰着包括OpenAI的GPT-5和Anthropic的Claude在内的众多热门大语言模型。
核心发现:奖励“猜测”而非“承认不确定性”
在一篇近期发布的文章中,OpenAI公布了其核心发现:大语言模型产生幻觉的根本原因,在于其训练方法更倾向于奖励“猜测”,而非指导其“承认不确定性”。
换言之,这些模型被训练成“不懂装懂,直到蒙对为止”(fake it till they make it)。研究人员指出,“幻觉”问题的持续存在,与当前大多数评估的评分方式直接相关。AI模型被优化为优秀的应试者,被驱动在不确定时进行猜测,因为这种行为能够提高考试成绩。它们长期处于“应试模式”,将所有问题视为非对即错的二进制选择题。
然而,现实世界与这种“应试模式”截然不同。现实中,不确定性远比确定性普遍,真正的准确性往往需要对已知界限的认识。人类在学校之外的实践中学会了表达不确定性的价值,而大语言模型却主要通过那些惩罚“不确定性”的考试来评估。
解决方案:重塑评估指标
OpenAI发现,解决“幻觉”问题切实可行,关键在于“重新设计评估指标”。研究指出,根本问题在于大量评估标准未能与模型的实际应用目标对齐。因此,必须调整现有的主要评估方法,停止在模型不确定时对其“弃权”行为进行惩罚。
目前广泛使用的、基于准确率的评估方法亟需更新,其评分机制应鼓励模型在不确定时选择不作答,而非进行猜测。只要评估体系仍奖励侥幸的猜测,模型便会持续学习这种倾向。