研究人员发现,人工智能模型 "秘密 "学习的能力早在它们表现出来之前就已经存在了

2024-11-24 15:01:02 UTC
研究人员发现,人工智能模型 "秘密 "学习的能力早在它们表现出来之前就已经存在了

最近的一项研究发现,模型在完全展示出处理和应用这些概念的能力之前,可以掌握潜在的概念。

根据哈佛大学和密歇根大学的最新研究,现代人工智能模型拥有隐藏的能力,这些能力会在训练过程中突然和持续地显现出来,但在以特定方式提示之前,这些能力仍会被隐藏起来。

这项研究分析了人工智能系统如何学习颜色和大小等概念,发现模型掌握这些技能的时间往往远远早于标准测试所显示的时间--这一发现对人工智能的安全和发展具有重大意义。

"研究论文称:"我们的研究结果表明,衡量人工智能系统的能力比以前想象的要复杂得多。"一个模型在接受标准提示时可能显得无能,而实际上却拥有只有在特定条件下才会出现的复杂能力"。

这一研究进展加入了越来越多旨在揭示人工智能模型如何发展能力的研究中。

据《解密》(Decrypt) 今年早些时候报道,人类学研究人员推出了 "字典学习 "技术,该技术将克劳德语言模型中的数百万个神经连接映射到人工智能所理解的特定概念上。

虽然方法各不相同,但这些研究都有一个共同的目标:让一直被认为是人工智能学习 "黑箱 "的东西变得透明。

"Anthropic公司在其研究论文中说:"我们发现了数以百万计的特征,这些特征似乎与可解释的概念相对应,这些概念既包括人、国家和著名建筑等具体物体,也包括情感、写作风格和推理步骤等抽象概念。

研究人员使用扩散模型--生成式人工智能最流行的架构--进行了大量实验。在追踪这些模型如何学会操作基本概念的过程中,他们发现了一个一致的模式:能力在不同的阶段出现,模型获得新能力时有一个明显的过渡点。

模型掌握概念的时间比标准测试所能检测到的早达 2000 个训练步骤。强概念在 6000 步左右出现,而弱概念则在 20000 步左右出现。

研究人员调整了 "概念信号",即训练数据中呈现概念的清晰度。

他们发现这与学习速度直接相关。在标准测试中出现隐藏能力之前,另一种提示方法就能可靠地提取出这些能力。

这种 "隐性出现 "现象对人工智能的安全性和评估具有重要意义。传统基准可能会大大低估模型的实际能力,从而可能错过有益的和令人担忧的能力。

也许最有趣的是,研究小组发现了多种获取这些隐藏能力的方法。利用他们称之为 "线性潜在干预 "和 "过度提示 "的技术,研究人员可以从模型中可靠地提取出复杂的行为,而这些能力早在标准测试中就已经出现了。

在另一个案例中,研究人员发现,人工智能模型在通过标准提示可靠地展示这些能力之前,就学会了操纵复杂的特征,如性别展示和面部表情。

例如,模型在将这些特征组合起来之前,就能准确地单独生成 "微笑的女性 "或 "戴帽子的男性"--但详细的分析表明,它们在更早的时候就已经掌握了这些特征的组合。他们只是无法通过传统的提示表达出来而已。

这项研究中观察到的突然出现的能力最初看起来可能与摸索(grokking)类似--即模型在经过长期训练后突然表现出完美的测试性能,但两者之间存在着关键的区别。

摸索发生在训练高原之后,涉及在同一数据分布上表征的逐步完善,而本研究显示的能力是在主动学习过程中出现的,涉及分布外泛化。

作者发现,模型以新颖方式处理概念的能力出现了急剧的转变,这表明是离散的阶段性变化,而不是摸索中看到的渐进式表征改进。

换句话说,人工智能模型内化概念的时间似乎比我们想象的要早得多,它们只是无法展现出自己的技能--就像有些人虽然能看懂外语电影,但仍然难以正确说出外语一样。

对于人工智能行业来说,这是一把双刃剑。隐藏能力的存在表明,模型可能比以前想象的更强大。不过,这也证明要完全理解和控制它们的能力是多么困难。

开发大型语言模型和图像生成器的公司可能需要修改他们的测试协议。

传统的基准虽然仍有价值,但可能需要辅以更复杂的评估方法,以检测隐藏的能力。

编辑:塞巴斯蒂安-辛克莱

Source: decrypt.co

Related News

More News

© 2025 DeFi.io