【欧洲时报李梓编译】奥地利《标准报》报道,中国人工智能公司Deepseek刚刚发布了迄今为止最强大的语言模型。早期测试表明,新的V3模型可以与一些业内领先的专有模型相媲美,并且在逻辑推理任务中表现出特别的改进。任何人都可以下载并定制名为Deepseek V3的模型。
该模型现已在Github上发布,采用混合专家(MoE)架构,共有6710亿个参数,其中每个token激活370亿个参数。这比V2有了显著增加,V2共有2360亿个参数,其中210亿个参数在推理过程中处于活动状态。
V3的训练也更加广泛,处理了14.8万亿个token,几乎是V2训练数据的两倍。
据Deepseek称,整个训练耗时278.8万个H800GPU小时,成本约为557.6万美元。
尤其令人印象深刻的是,他们仅使用2000个GPU集群就实现了这一目标,而Meta、xAI和OpenAI等公司通常用于AI训练的100000个显卡的数量仅为其中的一小部分。Deepseek将这种效率归功于他们对算法、框架和硬件的优化协同设计。
V3最大的改进之一是速度——它每秒可以处理60个token,比前代快三倍。该团队重点关注改进推理能力,使用一种特殊的后训练过程,该过程使用来自他们的“Deepseek-R1”模型的数据,该模型专为复杂的推理任务而设计。
乍一看,Deepseek V3是一款传统的聊天机器人:它可以处理各种基于文本的任务,如编程、翻译和根据输入内容撰写电子邮件。然而,该机型的特别之处在于它的性能,公司称其性能明显优于迄今为止已知的任何其他机型。据该公司称,DeepseekV3的性能既优于Meta的Llama3.1405B等开源模型,也优于只能通过自己的编程接口使用的非免费模型,如OpenAI的GPT-4或阿里巴巴的Qwen2.572B等。
如果公布的数据是正确的,那么可能巨大的不仅仅是训练数据集:Deepseek V3本身也非常庞大,拥有6710亿个参数(在人工智能开发平台“Hugging Face”上为6850亿)。参数是模型用于预测或决策的内部变量。这使得它的规模是拥有4050亿个参数的Llama3.1 405B的1.6倍左右。
参数数量通常与性能有关:参数越多的模型通常性能越好,但并非总是如此。然而,大型模型也需要更强大的硬件。Deepseek使用NvidiaH800GPU组成的数据中心,仅用了两个月左右的时间就完成了模型训练。这些GPU最近受到了美国商务部的制裁,因此不能再出口到中国。
Deepseek公司本身有着不同寻常的背景:该公司由中国对冲基金High-Flyer提供资金。这家公司利用人工智能做出商业决策。High-Flyer建立了自己的服务器集群,用于模型训练。据报道,其中一个最新的服务器集群拥有10000个Nvidia A100 GPU,耗资10亿元人民币(约1.31亿欧元)。
High-Flyer由计算机科学毕业生梁文峰创立,旨在通过Deepseek创造“超级智能”人工智能。
据TheDecoder报道,Deepseek V3的开发显示了美国出口限制的副作用:技术限制迫使公司在软件方面进行创新,以优化现有硬件的使用。这一认识对欧洲的人工智能发展也具有开创性意义:如果能优化利用现有资源,即使没有最大的GPU集群,尖端的人工智能显然也是可能的。
(编辑:夏莹)