人工智能模型越大,谎言越多

2024-09-27 19:36:11 UTC
人工智能模型越大,谎言越多

新研究发现,大型人工智能模型不太可能承认无知。

研究人员发现有证据表明,人工智能模型宁愿撒谎,也不愿承认不知道某些事情的羞耻感。这种行为似乎越大、越复杂就越明显。

发表在《自然》(Nature)杂志上的一项新研究发现,人工智能模型越大,在执行特定任务时就越不可靠。这并不完全是我们所理解的撒谎,但它们倾向于自信地回答,即使答案与事实不符,因为它们被训练成相信答案是正确的。

这种现象被研究人员称为 "ultra-crepidarian"--一个19世纪的词,基本意思是对自己一无所知的事物发表意见--描述了法学硕士们在回答问题时远远超出了自己的知识基础。"研究指出:"[法学硕士]在不知道的情况下仍然回答问题,失败的比例更高。换句话说,这些模型没有意识到自己的无知。

这项研究考察了多个 LLM 系列的性能,其中包括 OpenAI 的 GPT 系列、Meta 的 LLaMA 模型和 BigScience 的 BLOOM 套件。

虽然大型 LLM 在复杂任务上的性能普遍有所提高,但这种提高并不一定能转化为一致的准确性,尤其是在较简单的任务上。这种 "难度不一致"--即 LLM 在人类认为简单的任务上失败的现象--破坏了这些模型可靠工作区域的想法。即使采用了越来越复杂的训练方法,包括扩大模型规模和数据量,并通过人类反馈来塑造模型,研究人员仍未找到消除这种不和谐现象的可靠方法。

这项研究的发现与有关人工智能发展的传统观点背道而驰。传统上,人们认为增加模型的规模、数据量和计算能力会带来更准确、更可信的输出。然而,研究表明,扩大规模实际上可能会加剧可靠性问题。

大型模型的任务回避现象明显减少,这意味着它们不太可能回避难题。乍一看,这似乎是一个积极的发展,但它也有一个显著的缺点:这些模型也更容易给出错误的答案。在下图中,很容易看到模型是如何抛出错误结果(红色)而不是回避任务(浅蓝色)的。正确答案则显示为深蓝色。

研究人员指出:"缩放和整形目前是用回避来换取更多的不正确率,"但解决这个问题并不像训练模型变得更谨慎那么容易。"研究人员指出:"对于整形模型来说,回避率显然要低得多,但错误率却要高得多。然而,一个被训练成避免执行任务的模型最终可能会变得更懒惰或被削弱--正如用户在不同的顶级 LLM(如 ChatGPT 或 Claude)中注意到的那样。

研究人员发现,这种现象并不是因为大型 LLM 无法胜任简单的任务,而是它们被训练得更加精通复杂的任务。这就好比一个习惯了只吃美食的人,突然在做家庭烧烤或传统蛋糕时显得力不从心。在庞大、复杂的数据集上训练出来的人工智能模型更容易遗漏基本技能。

模型明显的自信心更加剧了这一问题。用户通常会发现,要分辨人工智能是在提供准确信息,还是在自信满满地提供错误信息,是一件很有挑战性的事情。这种过度自信会导致对人工智能产出的危险过度依赖,尤其是在医疗保健或法律咨询等关键领域。

研究人员还注意到,放大模型的可靠性在不同领域会出现波动。虽然在一个领域的性能可能会提高,但同时在另一个领域的性能可能会下降,这就产生了一种 "打地鼠 "效应,很难确定任何 "安全 "的操作领域。"回避答案的百分比很少比错误答案的百分比上升得更快。解读很清楚:错误仍然越来越频繁。研究人员写道:"这代表着可靠性的内卷化。

这项研究凸显了当前人工智能训练方法的局限性。人类反馈强化学习(RLHF)等旨在塑造人工智能行为的技术实际上可能会加剧问题的严重性。这些方法似乎正在减少模型回避它们不具备处理能力的任务的倾向--还记得臭名昭著的 "作为人工智能语言模型,我不能?"吗?

提示工程,即为人工智能系统设计有效查询的艺术,似乎是应对这些问题的关键技能。即使是像 GPT-4 这样高度先进的模型,也会对问题的措辞表现出敏感性,稍有变化就可能导致截然不同的输出结果。

在比较不同的 LLM 系列时更容易注意到这一点:例如,Claude 3.5 Sonnet 需要与 OpenAI o1 完全不同的提示方式才能达到最佳效果。不恰当的提示最终可能会使模型产生或多或少的幻觉。

人类监督一直被认为是防止人工智能犯错的保障,但它可能不足以解决这些问题。研究发现,即使是在相对简单的领域,用户也常常难以纠正错误的模型输出,因此依靠人类判断作为故障安全保障可能并不是正确训练模型的最终解决方案。"研究人员指出:"用户可以识别这些高难度的实例,但仍然会经常犯从错误到正确的监督错误。

这项研究的发现让人们对当前的人工智能发展轨迹产生了质疑。虽然人们在继续推动建立更大、更强大的模型,但这项研究表明,就人工智能的可靠性而言,并非越大越好。

现在,企业关注的是更好的数据质量,而不是数量。例如,Meta 公司最新的 Llama 3.2 模型就比前几代模型在更多参数的基础上取得了更好的结果。幸运的是,这让它们变得不那么人性化,所以当你问它们世界上最基本的问题时,它们可以认输,让自己看起来很笨。

Source: decrypt.co

Related News

More News

© 2025 DeFi.io