Meta 如何帮助人工智能模型在回答问题前清晰 "思考"?

2024-10-16 22:12:36 UTC
Meta 如何帮助人工智能模型在回答问题前清晰 "思考"?

Meta 公司的研究人员推出了 TPO,这是一种教导人工智能模型在回答问题前 "思考 "答案的技术。

Meta 公司刚刚发布了一种新的人工智能训练方法,这种方法可以改善机器处理信息和回答问题的方式。这种技术被称为 "思维偏好优化"(Thought Preference Optimization,TPO),它可以让语言模型在吐出答案之前进行内部思考。换句话说:它们在思考,某种程度上。

TPO 基本上就像是给了人工智能一个思维暂停键,让它能够反复思考,而不是脱口而出第一个想到的答案。结果是什么?更清晰、更细致的回答,听起来不像机器人,更像深思熟虑的人类。

这意味着,TPO 可以使 Meta 更接近于提供一种开放源代码,替代 OpenAI 的草莓(又名 o1)等以复杂问题解决能力著称的专有模型。

Meta的方法与 "思维链 "提示等传统方法不同,后者迫使人工智能通过不同的迭代来展示自己的工作。TPO 将思维体操隐藏起来,让模型自己一次性完成所有工作。

训练过程也不同于简单地告诉模型 "逐步思考"。研究人员从一个基本的指令遵循模型开始,促使它在回答之前产生内部思考。通过迭代强化学习,人工智能在只评估最终输出(即用户看到的内容)的判断模型指导下,磨练自己的思维能力。

这种 "不干预 "的方法让人工智能形成了自己独特的思维模式,有可能带来更具创造性和适应性的问题解决方案。这是向人工智能迈出的一步,人工智能不仅能遵循规则,还能真正理解规则背后的推理。

Meta 公司的创新从认知科学中汲取灵感,模仿人类在解决复杂问题前停顿和思考的倾向。如果人工智能模型学会将更多的 "计算时间 "用于更艰巨的任务,那么下一代开源模型的性能将大大超过我们目前使用的模型。

最棒的是,Meta 的 TPO 技术不需要大量新数据就能施展魔法。它以现有的人工智能架构为基础,对其进行调整,以模拟思维过程,而无需人工操作。这可以快速开发出更智能的人工智能助手、聊天机器人和其他基于语言的工具,让它们在解决问题时更具创造力。

Meta 公司的研究人员根据行业标准基准测试了他们的方法。经过 TPO 训练的模型展示了它们新发现的认知能力,在复杂任务中的表现优于不思考的同行。

在让人工智能更加智能化方面,Meta 公司一直在取得令人感兴趣的进展。就在三个月前,其研究人员推出了 "System 2 distillation",这是一种教大型语言模型(LLM)如何在不输出不必要步骤的情况下解决复杂任务的技术。

系统2蒸馏 "受人类认知过程的启发,教导大型语言模型执行复杂任务,而不需要逐步提示--这通常被认为是高级提示工程的常用方法。研究人员根据对系统 2 提示技术的验证响应对模型进行了微调,结果表明,人工智能可以内化复杂的推理技能,其性能往往可以与显式推理方法相媲美,甚至更胜一筹。

系统 1 思维是快速、直观和自动的。这是我们用于快速判断、模式识别和熟悉任务的思维过程。就人工智能而言,这与大型语言模型的典型运作方式一致--根据学习到的模式快速生成反应。

相比之下,系统 2 思维是缓慢、深思熟虑和分析性的。这是人类在解决复杂问题、进行逻辑推理和规划时所采用的处理方式。人工智能研究人员一直致力于通过各种提示技术,迫使人工智能展示其工作或逐步推理,从而在语言模型中复制这种思维方式。

Meta 的 "思维偏好优化"(Thought Preference Optimization)以及对系统 2 提炼的相关研究,都是在人工智能中弥合这两种思维模式的尝试。其目标是在不牺牲系统 1 处理速度和效率的情况下,使人工智能模型具备进行系统 2 风格的深度推理的能力。

这种方法包括训练人工智能将复杂的推理过程内化。通过这种方法,人工智能模型可以更高效地解决复杂问题,模仿人类在任务中获得专业知识后从有意识的费力思考过渡到更自动处理的过程。

Meta 的研究恰逢开源人工智能领域动荡的一个月之后,时机再好不过了。备受关注的 Reflection 70B 模型被吹捧为推理能手,但事实证明它只是烟雾弹。在 OpenAI 发布 o1 之前,该模型曾被承诺为具有嵌入式思维链,但最终却无法兑现其承诺,一些用户甚至指责创建者只是在 Anthropic 的 Claude 上使用了一个包装。

现在,它的开发者们在不同的公开后记中相互指责,让人工智能界大跌眼镜。这个想法的幕后推手马特-舒默(Matt Schumer)目前正在用自己的硬件和数据集训练一个新版本。

如果 Meta 的方法证明是成功的,那么它就能为 OpenAI 的 o1 模式的开源对手铺平道路。一个开源的替代方案可以让这种先进的人工智能思维平民化。

编辑:安德鲁-海沃德

Source: decrypt.co

Related News

More News

© 2025 DeFi.io