超越变形金刚:新的人工智能架构将彻底改变大型语言模型

2025-01-18 20:01:02 UTC
超越变形金刚:新的人工智能架构将彻底改变大型语言模型

两种新的神经网络设计有望使人工智能模型更具适应性和效率,从而有可能改变人工智能的学习和发展方式。

在过去的几周里,来自谷歌和 Sakana 的研究人员公布了两种可能颠覆人工智能行业的前沿神经网络设计。

这些技术旨在挑战变压器--一种根据上下文连接输入和输出的神经网络--的主导地位,该技术在过去六年中定义了人工智能。

这些新方法分别是谷歌的 "泰坦"(Titans)和 "变压器平方"(Transformers Squared),后者由东京一家人工智能初创公司Sakana设计,该公司以利用自然作为技术解决方案的模型而闻名。事实上,谷歌和 Sakana 都是通过研究人类大脑来解决变压器问题的。他们的变压器基本上是利用不同阶段的记忆,并独立激活不同的专家模块,而不是在每个问题上都一次性启动整个模型。

这样做的最终结果是,人工智能系统比以往任何时候都更智能、更快速、更多才多艺,而不一定会变得更大或运行成本更高。

就上下文而言,变压器架构(ChatGPT 名称中的 "T "即来源于该技术)是专为序列到序列任务(如语言建模、翻译和图像处理)而设计的。转换器依赖于 "注意机制",也就是理解一个概念在上下文中的重要性的工具,来模拟输入标记之间的依赖关系,使它们能够并行处理数据,而不是像所谓的递归神经网络那样按顺序处理数据,在转换器出现之前,递归神经网络是人工智能领域的主流技术。在变压器出现之前,人工智能领域的主流技术是所谓的循环神经网络。这项技术赋予了模型对上下文的理解能力,标志着人工智能发展的一个前无古人后无来者的时刻。

然而,尽管变压器取得了巨大成功,但在可扩展性和适应性方面却面临着巨大挑战。为了让模型更加灵活多变,它们还需要更强大的功能。因此,它们一旦训练完成,就无法再进行改进,除非开发人员提出新的模型,或者用户依赖第三方工具。这就是为什么如今在人工智能领域,"越大越好 "成为一条普遍规则。

但这种情况可能很快就会改变,这要归功于谷歌和 Sakana。

谷歌研究院的泰坦架构采用了一种不同的方法来提高人工智能的适应性。泰坦 "不是修改模型处理信息的方式,而是侧重于改变它们存储和访问信息的方式。该架构引入了神经长期记忆模块,在测试时学习记忆,类似于人类记忆的工作方式。

目前,模型会读取你的整个提示和输出,预测一个标记,再次读取所有信息,预测下一个标记,如此反复,直到得出答案。它们的短期记忆力惊人,但长期记忆力却很差。如果要求他们记住上下文窗口之外的东西,或者在一堆噪音中记住非常具体的信息,他们很可能会失败。

而泰坦则结合了三种记忆系统:短期记忆(类似于传统的变压器)、长期记忆(用于存储历史背景)和持久记忆(用于存储特定任务的知识)。这种多层次的方法使该模型能够处理长度超过 200 万个令牌的序列,远远超出了当前变压器所能高效处理的范围。

研究论文指出,泰坦模型在语言建模、常识推理和基因组学等多项任务中都有显著改进。事实证明,该架构在 "大海捞针 "任务中尤其有效,因为它需要在很长的上下文中找到特定信息。

该系统模仿了人脑在执行不同任务时激活特定区域的方式,并根据不断变化的需求动态地重新配置其网络。

换句话说,就像大脑中的不同神经元专门负责不同的功能,并根据你正在执行的任务而被激活一样,泰坦公司也通过整合相互关联的记忆系统来模仿这种想法。这些系统(短期记忆、长期记忆和持久记忆)协同工作,根据手头的任务动态存储、检索和处理信息。

就在谷歌发表论文两周后,来自 Sakana AI 和东京科学研究所的研究团队推出了 Transformer Squared,这是一个允许人工智能模型根据手头任务实时修改其行为的框架。该系统在推理过程中只选择性地调整权重矩阵的奇异成分,因此比传统的微调方法更有效。

研究论文称,Transformer Squared "采用了一种双通道机制:首先,调度系统识别任务属性,然后使用强化学习训练的特定任务'专家'向量进行动态混合,以获得针对传入提示的目标行为"。

它牺牲了推理时间(思考得更多)来换取专业化(知道应用哪种专业知识)。

Transformer Squared 的创新之处在于它无需大量再培训就能适应环境。该系统采用了研究人员称之为奇异值微调(SVF)的方法,即只修改特定任务所需的基本组件。与目前的方法相比,这种方法大大降低了计算需求,同时保持或提高了性能。

在测试中,Sakana 的 Transformer 在不同的任务和模型架构中表现出了显著的通用性。该框架在处理非分布式应用方面显示出了特别的前景,这表明它可以帮助人工智能系统变得更加灵活,并对新情况做出更快的反应。

以下是我们的一个类比尝试。在学习一项新技能时,大脑会形成新的神经连接,而无需重新连接一切。例如,当你学习弹钢琴时,你的大脑并不需要重写所有的知识--它会为这项任务调整特定的神经回路,同时保持其他能力。萨卡纳的想法是,开发人员不需要重新训练模型的整个网络来适应新任务。

相反,模型会选择性地调整特定组件(通过奇异值微调),以提高特定任务的效率,同时保持其一般能力。

总之,人工智能公司吹嘘其模型规模庞大的时代可能很快就会成为过去。如果新一代神经网络能够获得认可,那么未来的模型将无需依赖庞大的规模来实现更高的通用性和性能。

如今,变压器占据着主导地位,通常辅以检索增强生成(RAG)或 LoRA 等外部工具来增强其能力。但是,在瞬息万变的人工智能行业中,只需一次突破性的实施,就能为地震式的转变创造条件,而一旦发生这种情况,该领域的其他企业也必将紧随其后。

编辑:安德鲁-海沃德

Source: decrypt.co

Related News

More News

© 2025 DeFi.io