过去,人工智能公司总是以行业领导者 OpenAI 来衡量自己。现在不会了。现在,中国的 DeepSeek 已经成为领跑者,它已经成为最值得击败的对手。
本周一,DeepSeek 颠覆了人工智能行业,给华尔街造成了数十亿美元的损失,同时也引发了人们对一些美国初创企业和风险投资效率究竟如何的质疑。
现在,又有两家新的人工智能巨头加入了竞争行列:西雅图艾伦人工智能研究所(Allen Institute for AI)和中国阿里巴巴(Alibaba)都声称自己的模型与 DeepSeek V3 不相上下,甚至更胜一筹。
艾伦人工智能研究所(Allen Institute for AI)是一家总部位于美国的研究机构,因发布了一款名为 Molmo 的较为温和的视觉模型而闻名,该机构今天发布了新版 Tülu 3,这是一款免费开源的 4050 亿参数大型语言模型。
"我们非常高兴地宣布 Tülu 3 405B 的发布--这是最大的开放重量模型首次应用完全开放的后训练配方,"这家由保罗-艾伦(Paul Allen)资助的非营利组织在一篇博客文章中说。"通过这次发布,我们展示了我们的后训练配方在 405B 参数规模下的可扩展性和有效性。
对于那些喜欢比较大小的人来说,Meta 的最新 LLM Llama-3.3 有 700 亿个参数,而其迄今为止最大的模型是 Llama-3.1 405b--与 Tülu 3 大小相同。
该模型如此之大,对计算资源的需求非同一般,需要32个节点、256个GPU并行运行进行训练。
艾伦研究所在建立模型时遇到了几个障碍。Tülu 3 的庞大规模意味着研究团队必须将工作负载分担到数百个专用计算机芯片上,其中 240 个芯片负责处理训练过程,另外 16 个芯片负责管理实时操作。
即使拥有如此强大的计算能力,系统还是经常崩溃,需要全天候的监控才能保持运行。
Tülu 3 的突破性进展集中在其新颖的可验证奖励强化学习(RLVR)框架上,该框架在数学推理任务中表现出了特别的优势。
RLVR 的每次迭代耗时约 35 分钟,其中推理耗时 550 秒,权重转移耗时 25 秒,训练耗时 1,500 秒。
可验证奖励强化学习(RLVR)是一种训练方法,看起来就像一个复杂的辅导系统。
人工智能接受特定的任务,如解决数学问题,并即时获得答案是否正确的反馈。
然而,与传统的人工智能训练(如 openAI 用于训练 ChatGPT 的训练)不同的是,传统的人工智能训练中,人类的反馈可能是主观的,而 RLVR 只有在人工智能给出可验证的正确答案时才会给予奖励,这就类似于数学老师清楚地知道学生的答案是对是错。
这就是为什么该模型擅长数学和逻辑问题,却不擅长创意写作、角色扮演或事实分析等其他任务的原因。
Allen AI's playground 是一个免费网站,其用户界面类似于 ChatGPT 和其他人工智能聊天机器人。
我们的测试证实了对这么大一个模型的预期。
它非常擅长解决问题和应用逻辑。我们从一些数学和科学基准中提供了不同的随机问题,它能输出很好的答案,与基准提供的样本答案相比,甚至更容易理解。
但是,在其他不涉及数学的逻辑语言相关任务中,例如写出以特定单词结尾的句子,它却失败了。
此外,Tülu 3 也不是多模态的。相反,它坚持做自己最擅长的事情--输出文本。这里没有花哨的图像生成或嵌入式思维链技巧。
好的一面是,该界面可以免费使用,只需简单登录,通过 Allen AI's playground 或下载权重到本地运行即可。
该模型可通过 Hugging Face 下载,有从 80 亿参数到 4050 亿参数的巨型版本可供选择。
与此同时,中国并没有满足于 DeepSeek 的成就。
在一片哗然声中,阿里巴巴发布了基于超过 20 万亿代币训练的大型语言模型 Qwen 2.5-Max。
这家中国科技巨头在农历新年期间发布了该模型,而 DeepSeek R1 刚刚扰乱了市场。
基准测试表明,通过使用Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基准进行评估,Qwen 2.5-Max在编码、数学、推理和常识等几个关键领域的表现优于DeepSeek V3。
根据该模型的测试卡,该模型在与 GPT-4o 和 Claude 3.5-Sonne 等行业领先者的竞争中取得了优异成绩。
阿里巴巴通过其云平台提供了与 OpenAI 兼容的 API,允许开发人员使用熟悉的工具和方法集成该模型。
该公司的文档展示了详细的实施示例,这表明阿里巴巴正在推动该模型的广泛应用。
不过,阿里巴巴的 "QQ群聊 "门户网站是普通用户的最佳选择,而且对于那些愿意在那里创建账户的用户来说,它似乎相当令人印象深刻。它可能是目前功能最全面的人工智能聊天机器人界面。
Qwen Chat 允许用户完美地生成文本、代码和图像。它还支持网络搜索功能、人工智能,甚至是一个非常出色的视频生成器,所有这些都在同一个用户界面中免费提供。
它还有一个独特的功能,用户可以选择两个不同的模型进行 "对战",以获得最佳回复。
总的来说,Qwen 的用户界面比 Allen AI 的用户界面功能更多。
事实证明,在文本回复方面,Qwen2.5-Max 在涉及语言分析的创意写作和推理任务方面优于 Tülu 3。例如,它能生成以特定单词结尾的短语。
它的视频生成器是一个很好的补充,可以说与 Kling 或 Luma Labs 等公司的产品相媲美--绝对比 Sora 制作的更好。
此外,它的图像生成器能生成逼真、悦目的图像,与 OpenAI 的 DALL-E 3 相比优势明显,但明显落后于 Flux 或 MidJourney 等顶级模型。
DeepSeek、Qwen2.5-Max和Tülu 3的三重发布为开源人工智能领域带来了近期最重要的推动力。
DeepSeek 利用 Qwen 早期的提炼技术建立了 R1 推理模型,证明开源人工智能能以极低的成本与价值数十亿美元的科技巨头相媲美,从而引起了广泛关注。
现在,Qwen2.5-Max 又提高了难度。如果 DeepSeek 继续沿用其既定的玩法--利用 Qwen 的架构--那么它的下一个推理模型可能会带来更大的冲击。
不过,这对艾伦研究所来说可能还是个好机会。OpenAI正在竞相推出其o3推理模型,据一些行业分析师估计,用户每次查询的成本可能高达1000美元。
如果是这样的话,Tülu 3 的到来可能会成为一个很好的开源替代方案--特别是对于那些出于安全考虑或监管要求而不愿在中国技术基础上进行开发的开发人员来说。
编辑:Josh Quittner 和 Sebastian Sinclair
© 2025 DeFi.io