对于开源人工智能来说,这是美好的一周。
本周三,Meta 公司宣布升级其最先进的大型语言模型 Llama 3.2。
更引人关注的是,某些版本可以在不降低质量的情况下挤进你的智能手机,这意味着你有可能拥有私人的本地人工智能交互、应用程序和自定义功能,而无需将数据发送到第三方服务器。
本周三,Llama 3.2 在 Meta Connect 大会上亮相,它有四种版本,每种版本都有不同的功能。重量级的竞争者--11B 和 90B 参数模型--通过文本和图像处理功能灵活运用。
它们可以处理复杂的任务,如分析图表、为图像添加标题,甚至根据自然语言描述精确定位图片中的物体。
Llama 3.2 与艾伦研究所(Allen Institute)的 Molmo 在同一周发布,Molmo 号称是合成基准测试中最好的开源多模态视觉 LLM,在我们的测试中表现与 GPT-4o、Claude 3.5 Sonnet 和 Reka Core 相当。
祖克的公司还推出了两个新的重量级冠军:一对 1B 和 3B 参数模型,设计用于提高效率、速度和执行有限但不需要过多计算的重复性任务。
这些小型模型是多语言文本大师,擅长 "工具调用",这意味着它们可以更好地与编程工具集成。尽管体积小巧,它们却拥有令人印象深刻的 128K 标记上下文窗口--与 GPT4o 和其他功能强大的模型相同,这使它们成为设备上摘要、指令跟踪和改写任务的理想选择。
为了实现这一目标,Meta 的工程团队做了大量的数字体操。首先,他们使用结构化剪枝技术从大型模型中剪除不必要的数据,然后使用知识蒸馏技术--将大型模型中的知识转移到小型模型中--挤入额外的智能。
结果,一组紧凑型模型在同重量级竞争对手中表现出色,在各种基准测试中击败了谷歌的 Gemma 2 2.6B 和微软的 Phi-2 2.7B。
Meta 还在努力提升设备上的人工智能。他们已经与硬件巨头高通(Qualcomm)、联发科(MediaTek)和Arm结成联盟,确保Llama 3.2从一开始就能与移动芯片良好配合。云计算巨头们也不甘落后--AWS、谷歌云、微软 Azure 和其他许多公司都在其平台上提供对新模型的即时访问。
在引擎盖下,Llama 3.2 的视觉功能来自于巧妙的架构调整。Meta 的工程师在现有的语言模型中加入了适配器权重,在预先训练好的图像编码器和文本处理核心之间架起了一座桥梁。
换句话说,该模型的视觉能力不会牺牲其文本处理能力,因此用户可以期待与 Llama 3.1 相比类似或更好的文本结果。
Llama 3.2 版本是开源的--至少是按照 Meta 的标准。Meta公司将在Llama.com和Hugging Face网站上提供模型下载,并通过其广泛的合作伙伴生态系统提供下载。
有兴趣在云上运行它的用户可以使用自己的 Google Collab Notebook 或使用 Groq 进行基于文本的交互,在不到 3 秒的时间内生成近 5000 个标记。
我们对 Llama 3.2 进行了测试,快速测试了它在各种任务中的能力。
在基于文本的交互中,该模型的表现与其前代产品相当。不过,它的编码能力结果参差不齐。
在 Groq 平台上进行测试时,Llama 3.2 成功生成了流行游戏和简单程序的代码。然而,当要求较小的 70B 机型为我们设计的一款定制游戏创建功能代码时,它却步履蹒跚。而功能更强大的 90B 则效率更高,第一次尝试就生成了一个功能游戏。
您可以点击此链接查看 Llama-3.2 和我们测试的所有其他型号生成的完整代码。
Llama 3.2 擅长识别图像中的主观元素。当我们看到一幅未来主义、赛博朋克风格的图片,并询问它是否符合蒸汽朋克美学时,该模型准确地识别出了这种风格及其元素。它给出了令人满意的解释,指出该图片不符合蒸汽朋克风格,因为缺少与该风格相关的关键元素。
图表分析是 Llama 3.2 的另一个强项,不过它需要高分辨率的图片才能发挥最佳性能。当我们输入一张包含图表的截图时,其他模型(如 Molmo 或 Reka)也能解读图表,但 Llama 的视觉能力却出现了问题。该模型道歉说,由于图像质量问题,它无法正确读取字母。
虽然 Llama 3.2 在处理图表中的小文字时有些吃力,但在阅读大图像中的文字时却表现完美。我们向它展示了一张介绍某人的演示幻灯片,该模型成功地理解了上下文,准确无误地区分了姓名和工作角色。
总的来说,Llama 3.2 比上一代有了很大改进,是开源人工智能行业的又一力作。它的优势在于图像解读和大段文字识别,但也有一些有待改进的地方,特别是在处理低质量图像和处理复杂的自定义编码任务方面。
对设备兼容性的承诺也有利于私人和本地人工智能任务的未来发展,是对 Gemini Nano 和苹果公司专有型号等接近产品的有力抗衡。
编辑:Josh Quittner 和 Sebastian Sinclair
© 2025 DeFi.io