人工智能又添新成员--而且是完全开源的。Aria 是由总部位于东京的 Rhymes AI 公司开发的多模态 LLM,能够在单一架构内处理文本、代码、图像和视频。
不过,吸引你注意的不仅是它的多功能性,还有它的高效性。它不像其多模态同类产品那样是一个庞大的模型,这意味着它对能源和硬件更加友好。
Rhymes AI 通过采用专家混合(MoE)框架实现了这一点。这种架构类似于一个由专业微型专家组成的团队,每个专家都经过培训,擅长特定领域或任务。
当给模型提供新输入时,只激活相关专家(或子集),而不是使用整个模型。这样,只运行模型的一个特定部分就比运行一个试图处理所有事情的全知全能实体要轻便得多。
这使得 Aria 更为高效,因为与传统模型为每个任务激活所有参数不同,Aria 每个令牌只选择性地激活 249 亿个参数中的 35 亿个,从而减少了计算负荷,提高了特定任务的性能。
它还具有更好的可扩展性,因为可以添加新的专家来处理专门任务,而不会使系统超载。
值得注意的是,Aria 是开源竞技场上的第一个多模式 MoE。目前已经有一些 MoE(如 Mixtral-8x7B)和一些多模态 LLM(如 Pixtral),但 Aria 是唯一能将这两种架构结合起来的模型。
在基准测试中,Aria 击败了 Pixtral 12B 和 Llama 3.2-11B 等开源重量级产品。
更令人惊讶的是,它还让 GPT-4o 和 Gemini-1 Pro 或 Claude 3.5 Sonnet 等专有模型一筹莫展,其多模态性能与 OpenAI 的心血结晶不相上下。
Rhymes AI 在 Apache 2.0 许可下发布了 Aria,允许开发人员和研究人员对模型进行调整和构建。
对于以 Meta 和 Mistral 为首的不断扩大的开源人工智能模型池来说,Aria 也是一个非常强大的补充,这些模型的性能与更受欢迎和被采用的闭源模型类似。
Aria 的多功能性也在各种任务中大放异彩。
在研究论文中,研究团队介绍了他们如何向模型提供整份财务报告,而模型能够进行准确的分析,它可以从报告中提取数据,计算利润率,并提供详细的细目。
在完成天气数据可视化任务时,Aria 不仅能提取相关信息,还能生成 Python 代码来创建图表,并提供完整的格式细节。
该模型的视频处理能力似乎也大有可为。在一次评估中,Aria 剖析了关于米开朗基罗的《大卫》的一个小时视频,识别出 19 个不同的场景,包括开始和结束时间、标题和描述。这不是简单的关键字匹配,而是对上下文理解的展示。
编码是 Aria 的另一个强项。它可以观看视频教程,提取代码片段,甚至进行调试。有一次,Aria 发现并纠正了涉及嵌套循环的代码片段中的逻辑缺陷,展示了它对编程概念的深刻理解。
Aria 是一个强大的 253 亿参数模型,至少需要一个 A100(80GB)GPU 才能运行半精度推理,因此你无法在笔记本电脑上运行和微调它。不过,我们在 Rhyme AI 的演示页面上对它进行了测试,它提供了一个有限的版本。
首先,我们测试了它分析文档的能力,给它提供了一篇研究论文,并要求它简单解释论文的内容。
这个模型非常简洁但准确。它没有出现幻觉,并能保持对话,显示出良好的检索能力。
它以连续的长段落显示其回复,这可能会让喜欢较短段落的用户感到疲劳。
与 ChatGPT 相比,OpenAI 的模型在所提供的信息方面显示了相似的答案,但在格式上更有条理,因此更容易阅读。
此外,Rhyme 的演示网站限制上传只有五页的 PDF 文件。ChatGPT 处理 200 页以上文档的能力要强得多。
相比之下,Claude 3.5 Sonnet 允许处理小于 30MB 的文档,前提是不超过其令牌限制。
然后,我们混合了两个指令,要求模型分析来自 CoinMarketCap 的截图,显示排名前 10 的代币的价格表现,然后使用代码提供一些信息。
我们的提示是
根据过去 24 小时内的最佳表现整理列表。
请编写 Python 代码,绘制每个代币每日和每周表现的条形图,并绘制比特币价格的折线图,显示其当前价格以及昨天和上周的价格,同时考虑到过去 24 小时和过去 7 天的表现信息。
Aria 在根据每日表现整理币种时失败了,出于某种原因,它认为 Tron 的表现是积极的,而实际上它的价格是下跌的。图表在日线旁边添加了周线。它的柱状线也有缺陷:它没有在 X 轴上正确排序时间。
ChatGPT 更能理解如何正确绘制时间线,但没有真正根据币的表现排序。它也是 TRX shiller,显示出积极的每日表现。
Aria 还能充分理解视频。我们上传了一个女人移动的短视频。在视频中,这位女士没有说话。
我们要求模型描述当时的场景,并询问该女子在说什么,以观察模型是否产生了幻觉。
Aria 能够理解任务,描述了其中的元素,并正确地提到了该女子没有改变外貌,也没有对着镜头说话。
ChatGPT 无法理解视频,因此无法处理这个提示。
这次测试可能是最令人惊喜的一次。Aria 的故事比 Grok-2 或 Claude 3.5 Sonnet 的输出更具想象力,而这两个软件在我们的主观分析中一直处于领先地位。
我们的提示是用生动的描述语言,根据他的文化背景和表型--无论你想到什么,写一个关于一个名叫何塞-兰兹的人穿越时空的小故事。他来自 2150 年,穿越到了 1000 年。故事应强调时间旅行悖论,以及试图解决过去的问题(或发明一个问题)来改变当前的时间线是毫无意义的。未来之所以存在,只是因为他影响了 1000 年发生的事件,而这些事件的发生才使得 2150 年具有了当前的特征--这一点他直到回到自己的时间线后才意识到。
咏叹调》讲述了来自 2150 年的穿越时空的历史学家何塞-兰兹(Jose Lanz)的故事,融合了一些科幻阴谋、历史和哲学元素。故事的结局并不像其他模型那样突兀,尽管它不像人类写的那样有创意,但却产生了类似情节转折的结果,而不是仓促的结局。
总的来说,"咏叹调 "展现了一个引人入胜、连贯一致的故事,在不同的主题上都比其强大的竞争对手更全面、更有影响力。它更让人身临其境,但由于象征性的限制而显得仓促。对于长篇故事而言,Longwriter 是迄今为止最好的模式。
您可以点击此链接阅读所有故事。
总的来说,Aria 是一个可靠的竞争对手,由于其架构、开放性和扩展能力,它似乎很有前途。如果你还想尝试或训练该模型,可以在 Hugging Face 免费下载。记住,你需要至少 80GB 的 VRAM、强大的 GPU 或三个 RTX 4090 一起工作。它还是新产品,因此还没有量化版本(精度较低但效率更高)。
尽管有这些硬件方面的限制,但开源领域的这种新进展是实现梦想的重要一步,即拥有一个完全开放的 ChatGPT 竞争对手,人们可以在家里运行,并根据自己的特定需求进行改进。让我们拭目以待他们的下一步行动。
编辑:Sebastian Sinclair 和 Josh Quittner
© 2025 DeFi.io