欧洲时报–欧时网-欧时大参-奥媒：中国开发迄今为止最强开源人工智能

欧洲时报网 >> 中国新闻

奥媒：中国开发迄今为止最强开源人工智能

发布时间：1735893632258 1735893632258 来源：欧洲时报 欧洲时报 作者：李梓编译 浏览次数：评论：0

【欧洲时报李梓编译】奥地利《标准报》报道，中国人工智能公司Deepseek刚刚发布了迄今为止最强大的语言模型。早期测试表明，新的V3模型可以与一些业内领先的专有模型相媲美，并且在逻辑推理任务中表现出特别的改进。任何人都可以下载并定制名为Deepseek V3的模型。

该模型现已在Github上发布，采用混合专家(MoE)架构，共有6710亿个参数，其中每个token激活370亿个参数。这比V2有了显著增加，V2共有2360亿个参数，其中210亿个参数在推理过程中处于活动状态。

V3的训练也更加广泛，处理了14.8万亿个token，几乎是V2训练数据的两倍。

据Deepseek称，整个训练耗时278.8万个H800GPU小时，成本约为557.6万美元。

尤其令人印象深刻的是，他们仅使用2000个GPU集群就实现了这一目标，而Meta、xAI和OpenAI等公司通常用于AI训练的100000个显卡的数量仅为其中的一小部分。Deepseek将这种效率归功于他们对算法、框架和硬件的优化协同设计。

V3最大的改进之一是速度——它每秒可以处理60个token，比前代快三倍。该团队重点关注改进推理能力，使用一种特殊的后训练过程，该过程使用来自他们的“Deepseek-R1”模型的数据，该模型专为复杂的推理任务而设计。

乍一看，Deepseek V3是一款传统的聊天机器人：它可以处理各种基于文本的任务，如编程、翻译和根据输入内容撰写电子邮件。然而，该机型的特别之处在于它的性能，公司称其性能明显优于迄今为止已知的任何其他机型。据该公司称，DeepseekV3的性能既优于Meta的Llama3.1405B等开源模型，也优于只能通过自己的编程接口使用的非免费模型，如OpenAI的GPT-4或阿里巴巴的Qwen2.572B等。

如果公布的数据是正确的，那么可能巨大的不仅仅是训练数据集：Deepseek V3本身也非常庞大，拥有6710亿个参数（在人工智能开发平台“Hugging Face”上为6850亿）。参数是模型用于预测或决策的内部变量。这使得它的规模是拥有4050亿个参数的Llama3.1 405B的1.6倍左右。

参数数量通常与性能有关：参数越多的模型通常性能越好，但并非总是如此。然而，大型模型也需要更强大的硬件。Deepseek使用NvidiaH800GPU组成的数据中心，仅用了两个月左右的时间就完成了模型训练。这些GPU最近受到了美国商务部的制裁，因此不能再出口到中国。

Deepseek公司本身有着不同寻常的背景：该公司由中国对冲基金High-Flyer提供资金。这家公司利用人工智能做出商业决策。High-Flyer建立了自己的服务器集群，用于模型训练。据报道，其中一个最新的服务器集群拥有10000个Nvidia A100 GPU，耗资10亿元人民币（约1.31亿欧元）。

High-Flyer由计算机科学毕业生梁文峰创立，旨在通过Deepseek创造“超级智能”人工智能。

据TheDecoder报道，Deepseek V3的开发显示了美国出口限制的副作用：技术限制迫使公司在软件方面进行创新，以优化现有硬件的使用。这一认识对欧洲的人工智能发展也具有开创性意义：如果能优化利用现有资源，即使没有最大的GPU集群，尖端的人工智能显然也是可能的。

（编辑：夏莹）

分享到：

网友热评

查看更多评论

我要评论