为什么中国的 DeepSeek 人工智能会让每个人都大吃一惊--并让市场一飞冲天?

2025-01-27 19:22:26 UTC
为什么中国的 DeepSeek 人工智能会让每个人都大吃一惊--并让市场一飞冲天?

中国初创公司 DeepSeek 不仅与大科技公司的人工智能能力不相上下,而且还用极少的资源彻底改写了人工智能的规则。

中国的一家人工智能实验室所做的不仅仅是建立了一个更便宜的人工智能模型,它还暴露了整个行业的低效方法。

DeepSeek 的突破表明,一个小团队是如何为了省钱而重新思考如何建立人工智能模型的。OpenAI 和 Anthropic 等科技巨头仅在计算能力上就花费了数十亿美元,而 DeepSeek 据称只用了 500 多万美元就取得了类似的成果。

该公司的模型在许多基准测试中都达到或超过了 GPT-4o(OpenAI 最好的 LLM)、OpenAI o1(OpenAI 目前最好的推理模型)和 Anthropic 的 Claude 3.5 Sonnet,其全部训练大约使用了 2.788M H800 GPU 小时。这只是传统上认为所需的硬件的一小部分。

这个模型如此出色和高效,在短短几天内就登上了苹果公司 iOS 生产力应用类别的榜首,挑战了 OpenAI 的霸主地位。

必要性是创新之母。该团队能够做到这一点,所使用的技术是美国开发人员根本不需要考虑的,甚至在今天也不占主导地位。其中最重要的可能是,DeepSeek 没有使用全精度计算,而是采用了 8 位训练,内存需求减少了 75%。

"Perplexity公司首席执行官阿拉温德-斯里尼瓦斯(Aravind Srinivas)告诉CNBC:"他们想出了浮点8位训练法,至少对部分数值计算是如此。"据我所知,我认为浮点 8 位培训还没有得到很好的理解。美国的大多数培训仍在 FP16 中运行。"

与 FP16 相比,FP8 使用一半的内存带宽和存储空间。对于拥有数十亿参数的大型人工智能模型来说,这种减少是非常可观的。DeepSeek 需要掌握这一点,因为它的硬件较弱,但 OpenAI 从未遇到过这种限制。

DeepSeek 还开发了一种 "多标记 "系统,一次处理整个短语而不是单个单词,使系统的速度提高了一倍,同时保持了 90% 的准确率。

它使用的另一项技术叫做 "蒸馏"--让一个小模型复制一个大模型的输出,而不必在同一个知识数据库上进行训练。这样就有可能推出效率极高、准确性极强、竞争力极强的小型模型。

该公司还使用了一种名为 "专家混合 "的技术,从而提高了模型的效率。传统模型的所有参数都会持续保持激活状态,而 DeepSeek 的系统使用了 6710 亿个总参数,但一次只激活了 370 亿个参数。这就像拥有一个庞大的专家团队,但只调用某些任务所需的专家。

"我们使用 DeepSeek-R1 作为教师模型,生成 800K 个训练样本,并对几个小型密集模型进行微调。结果令人欣喜:DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中的表现优于 GPT-4o 和 Claude-3.5-Sonnet,在 AIME 中为 28.9%,在 MATH 中为 83.9%,"DeepSeek 在论文中写道。

就上下文而言,15 亿个参数对于一个模型来说是如此之少,以至于它不能被视为 LLM 或大型语言模型,而只能被视为 SLM 或小型语言模型。SLM 只需要很少的计算量和 vRAM,用户可以在智能手机等弱小的机器上运行它们。

这对成本的影响是惊人的。除了训练成本降低 95% 之外,Deepseek 的 API 每百万令牌仅收取 10 美分,而同类服务的收费为 4.40 美元。一位开发者称,他只花了约50美分就处理了20万个API请求,而且没有任何费率限制。

DeepSeek 效应 "已经显现。"让我大声说出安静的部分:投资人 Chamath Palihapitiya 说:"人工智能模型构建是一个金钱陷阱。尽管 DeepSeek 备受指责,但 OpenAI 首席执行官山姆-奥特曼(Sam Altman)很快就踩下了刹车,因为在社交媒体上,人们用 DeepSeek 免费实现了 OpenAI 每月收费 200 美元才能实现的目标。

与此同时,DeepSeek 应用程序在下载排行榜上名列前茅,Github 上排名前六的热门软件源中有三个与 DeepSeek 有关。

由于投资者质疑炒作是否已达到泡沫水平,大多数人工智能股票都在下跌。DeepSeek 的发布以及用户和开发者分享的结果引发了明显的范式转变,人工智能硬件股(英伟达、AMD)和软件股(微软、Meta 和谷歌)都深受其害。

甚至人工智能加密代币也受到了冲击,大量 DeepSeek 人工智能代币冒牌货出现,试图骗取用户的钱财。

除了经济损失,这一切给我们带来的启示是,DeepSeek 的突破表明,人工智能开发可能并不需要大规模的数据中心和专用硬件。这可能会从根本上改变竞争格局,将许多人认为大型科技公司的永久优势转变为暂时的领先优势。

这个时机几乎是滑稽的。就在 DeepSeek 发布消息的前几天,美国总统特朗普、OpenAI 的山姆-奥特曼(Sam Altman)和甲骨文公司的创始人共同发布了 "星际之门计划"--对美国人工智能基础设施投资 5000 亿美元。与此同时,马克-扎克伯格(Mark Zuckerberg)加倍兑现了 Meta 投入数十亿美元开发人工智能的承诺,而微软对 OpenAI 的 130 亿美元投资突然看起来不像是战略天才,更像是资源浪费导致的昂贵的 FOMO。

"斯里尼瓦斯告诉CNBC:"无论你做了什么,不让他们赶上,都没有用。"他们最终还是赶上了。"

编辑:安德鲁-海沃德

Source: decrypt.co

Related News

More News

© 2025 DeFi.io