一种新技术可以让人工智能模型严格控制能耗,在不影响质量的情况下,能耗最高可减少 95%。
比特能源人工智能公司(BitEnergy AI)的研究人员开发出了线性复杂度乘法(L-Mul),这是一种在人工智能计算中用更简单的整数加法取代高能耗浮点乘法的方法。
对于不熟悉这个术语的人来说,浮点数是一种数学简写,通过调整小数点的位置,计算机可以高效地处理非常大和非常小的数字。你可以把它想象成二进制的科学记数法。在人工智能模型的许多计算中,小数点都是必不可少的,但它们需要大量的能量和计算能力。数字越大,模型越好,所需的计算能力也越强。Fp32 通常是全精度模型,开发人员会将精度降低到 fp16、fp8 甚至 fp4,这样他们的模型就能在本地硬件上运行。
人工智能对电力的贪婪需求已成为一个日益严重的问题。仅 ChatGPT每天就要消耗 564 兆瓦时的电力,足以为 18,000 个美国家庭供电。根据剑桥大学另类金融中心(Centre for Alternative Finance)的估算,到2027年,整个人工智能行业的年耗电量预计将达到85-134太瓦时,与比特币挖矿业务大致相当。
L-Mul通过重新设想人工智能模型处理计算的方式,正面解决了人工智能的能源问题。L-Mul 使用整数加法来代替复杂的浮点乘法运算。因此,举例来说,L-Mul 不会将 123.45 乘以 67.89,而是使用加法将其分解成更小、更简单的步骤。这样,计算速度更快,能耗更低,同时还能保持精度。
结果似乎很有希望。"研究人员称:"在张量处理硬件中应用 L-Mul 运算,有可能将元素浮点张量乘法的能耗成本降低 95%,点乘法的能耗成本降低 80%。不用说得太复杂,这意味着根据这项研究,如果一个模型使用了这种技术,那么思考所需的能量将减少 95%,提出新想法所需的能量将减少 80%。
该算法的影响不仅限于节能。在某些情况下,L-Mul 的性能优于当前的 8 位标准,在大幅降低位级计算量的同时实现了更高的精度。在自然语言处理、视觉任务和符号推理方面的测试表明,平均性能下降仅为 0.07%--与潜在的节能效果相比,这几乎可以忽略不计。
基于变换器的模型是 GPT 等大型语言模型的骨干,L-Mul 可使其受益匪浅。该算法可无缝集成到注意力机制中,而注意力机制是这些模型中计算密集的部分。在 Llama、Mistral 和 Gemma 等流行模型上进行的测试甚至显示,在某些视觉任务上,L-Mul 的准确率有所提高。
在操作层面,L-Mul 的优势更加明显。研究显示,两个浮点数8相乘(目前人工智能模型的操作方式)需要325次运算,而L-Mul只需要157次,还不到一半。"总结误差和复杂性分析,L-Mul 比 fp8 乘法更高效、更准确。
但是,没有什么是完美的,这种技术有一个致命的弱点:它需要一种特殊的硬件,因此目前的硬件还没有经过优化,无法充分利用它。
本机支持 L-Mul 计算的专用硬件计划可能已经启动。"研究人员说:"为了充分释放我们提出的方法的潜力,我们将在硬件层面上实现 L-Mul 和 L-Matmul 内核算法,并为高级模型设计开发编程 API。研究人员说:"这有可能带来新一代的人工智能模型,它们快速、准确、超廉价,使高能效人工智能成为现实。
© 2025 DeFi.io