人工智能爱好者们,欢呼吧:有一种新的多模态大型学习模型可供你们玩耍。
总部位于西雅图的非营利性人工智能研究机构艾伦人工智能研究所(Ai2)刚刚推出了 Molmo,这是一系列多模态人工智能模型,有望与 Openai 和 Anthropic 等大型科技公司提供的基于视觉的专有模型相媲美。
多模态指的是处理不同数据类型的能力,包括文本、图像、音频、视频甚至感官信息。
本周二,Molmo 首次亮相,它没有像所有主要的人工智能模型那样大张旗鼓,但却拥有最先进视觉模型的所有功能。
从日常物体到复杂的图表和杂乱的白板,该系统在解读视觉数据方面表现出了非凡的能力。
在一个视频演示中,Ai2 展示了 Molmo 创建人工智能代理的能力,这些代理能够执行个性化任务,如点菜和将手写数据整理成格式正确的代码。
"这一模型通过指出[元素],引入了一种人工智能与世界互动的方式,从而推动了人工智能的发展"。Ai2 的研究员 Matt Deitke 在一份声明中说。"它的性能是由一个非常高质量的策划数据集驱动的,该数据集教人工智能通过文本理解图像。"
该系统是在一个由近 100 万张图片组成的数据集上进行训练的--这只是竞争对手通常使用的数十亿张图片的一小部分。据该模型的研究论文称,虽然规模较小,但这种方法降低了计算要求,显示出人工智能反应的错误较少。
Ai2 公司高级研究总监阿尼-肯布哈维(Ani Kembhavi)解释了这一策略背后的原因:Kembhavi 说:"我们专注于在小 1000 倍的规模上使用极高质量的数据。"这就产生了与最好的专利系统一样有效的模型,但误差更小,训练时间更短。
Molmo 系列包括多个不同大小的模型。MolmoE-1B 是专家模型的混合物,具有 10 亿个有效参数(总计 70 亿个)。
Molmo-7B-O 是最开放的 70 亿参数模型。而 Molmo-7B-D 则是一个示范模型。在最高级别,Molmo-72B 代表了该系列中最先进的模型。
初步评估表明,即使是较小的 70 亿参数模型,其性能也可与更重要的专有模型相媲美。这种效率使更多的开发人员和研究人员可以使用 Molmo,从而有可能加速该领域的创新。
Molmo 的开发涉及新颖的数据收集方法。团队使用了来自人类注释者的语音图像描述,从而获得了更丰富、更详细的说明。他们还纳入了二维指向数据,增强了模型执行计数和物体识别等任务的能力。
Molmo 的发布是分阶段进行的。最初,Ai2 将提供一个演示、推理代码、一篇发表在 arXiv 上的研究论文以及部分模型权重。在接下来的两个月里,研究所计划发布更多组件,包括更全面的技术报告版本、用于训练的数据集系列、更多模型权重和检查点,以及训练和评估代码。
通过公开 Molmo 的代码、数据和模型权重,Ai2 旨在促进开放式人工智能研究和创新。这种方法与许多领先的人工智能系统的封闭性形成了鲜明对比,可以加速该领域的进步。
解密》 对该模型进行了测试,结果相当不错,性能优于 Llava(开源社区的标准多模态 LLM),在视觉任务中与 ChatGPT 和 Reka 相当。
该聊天机器人现已公开,可免费使用。它的界面是粉红色的,但与典型的人工智能聊天机器人非常相似:一个侧板显示之前的互动,一个主屏幕,下部是一个文本框。
不过,这种模式主要是为与视觉相关的任务而设计的,至少在最初的版本中是这样。用户必须上传图片才能启动互动。
欢迎屏幕上预先提示的图片和文字示例可能会让你对该模型的工作原理有所了解。例如,不可能触发 "为什么美国不喜欢普京?"这样一个简单的问题,但提示一张普京的照片,就可以向模型提出这个特定的问题,因为互动是基于图片和文字的混合。
这就是我们的第一次对比。在展示弗拉基米尔-普京的照片时,Molmo 解释说,美国和普京之间的关系紧张是由于不同的因素造成的,比如历史上的紧张关系、地缘政治竞争和人权问题等等。
我们让 Molmo 接受当今最佳模型的测试。由于篇幅原因,我们对每个模型使用了一个任务,以便让人们对 Molmo 的可比性有一个大致的了解。
该模型擅长理解照片中的微妙元素,包括幽默和不寻常的特征。我们的测试揭示了它在把握这些主观方面的能力。例如,当看到一张人工智能生成的普京和金正恩共饮啤酒的图片,并询问人们为什么觉得这张图片很有趣时,Molmo 正确地识别出这张图片是无厘头的,是为娱乐目的而创作的。
"鉴于图片的低质量和无厘头性质,难怪你的朋友会在你的 WhatsApp 群里嘲笑它。这不是一张严肃或有意义的图片,而是一个拙劣的笑话或备忘录,很可能会遭到嘲笑或取笑,"莫尔莫说。
"ChatGPT 的解释是:"你的朋友也可能会从这种荒谬的情况中找到幽默感,因为人们不会把这两个人联系在一起。
这位模特还展示了解读图表的能力,表现与 Reka 不相上下。我们展示了一张图表,比较了类似家族中不同模型的 ELO 分数,并提出了三个问题:找出整体最佳模型、计算不同模型家族的数量以及评估名称不完整的特定模型的质量。
这些都是一些棘手的问题。
Molmo 准确地指出 "Flux Iprol "是表现最好的模型,而 Reka 则错误地命名为 "Flux [Ibrol]"。
不过,在第二项任务中,Reka 能更好地辨别细微差别,正确地将相似的模型归为一个系列,并准确地给出了 7 个不同模型系列的答案。相比之下,莫尔莫则对每个模型进行了单独计算。
在第三项任务中,Molmo 的回答更细致、更直接,他承认 SD3 是一个很好的模型,并指出它是其家族中最好的模型,同时还提到了其他选项。Reka 的回答是 "SD3 在图片中没有明确提及",这在技术上是准确的,但不那么有见地,尤其是考虑到其将不同的 SD3 版本归入一个系列的能力。
该模型擅长描述图像元素和识别文本。我们将其能力与 Claude 3.5 Sonnet 进行了比较,要求两者描述 William Saunders 先生在美国参议院作证的帧捕获中的所有元素。
虽然 Claude 的描述错误较多,但两个模型都表现出色。例如,它颠倒了左右两边元素的描述,并将一名女性误认为是一名年轻男子。
总的来说,对于需要熟练视觉模型的用户来说,Molmo 有希望成为一种有价值的工具。目前,它与 Reka 的竞争十分激烈,但在某些方面,它的表现要优于 Reka。
虽然 Claude 提供了更多功能和更强大的功能,但它规定了每日交互限制,而 Molmo 没有,这使它成为高级用户的更好选择。
ChatGPT 避免了这些限制,但需要付费订阅 ChatGPT Plus 才能使用其视觉功能。
© 2025 DeFi.io