DeepSeek V3刷屏，500万美金2000张卡训出的开源模型，跟OpenAI最烧钱模型一样好

admin · 发表于 2025-4-28 12:11:10

在这个报告中，Deepseek透露了训练的关键数据，其中最引人注目的，是它的高效和对算力资源依赖之小，同时效果又异常的好——

“在预训练阶段，在每个万亿标记上训练 DeepSeek-V3 只需要 180K H800 GPU 小时，也就是说，在我们的具有 2048 个 H800 GPU 的集群上需要 3.7 天。因此，我们的预训练阶段在不到两个月的时间内完成，成本为 2664K GPU 小时。结合 119K GPU 小时的上下文长度扩展和 5K GPU 小时的后训练，DeepSeek-V3 的完整训练成本仅为 2.788M GPU 小时。假设 H800 GPU 的租金为每 GPU 小时 2 美元，我们的总训练成本仅为 557万美元。请注意，上述成本仅包括 DeepSeek-V3 的正式训练，不包括与架构、算法或数据相关的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3 进行了全面的基准测试。尽管 DeepSeek-V3-Base 的训练成本较低，但综合评估表明，DeepSeek-V3-Base 已经成为目前可用的最强大的开源基础模型，特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型，并在一系列标准和开放式基准测试中实现了与 GPT-4o 和 Claude-3.5-Sonnet 等领先闭源模型的性能相当。”
新建项目 (58).png

它旋即被再次称为“国货之光”，在预训练撞墙，一切都要扭转到推理阶段的变换节点，deepseek v3的一系列技术方法，数据指标和测试性能，以及口碑，都让它成了一件事的最好代表：
根据它的官方公告，它在多项评测成绩上，超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

新建项目 (57).png

Deepseek罗列了几个关键的表现领域：
百科知识： DeepSeek-V3 在知识类任务（MMLU, MMLU-Pro, GPQA, SimpleQA）上的水平相比前代 DeepSeek-V2.5 显著提升，接近当前表现最好的模型 Claude-3.5-Sonnet-1022。
长文本：在长文本测评中，DROP、FRAMES 和 LongBench v2 上，DeepSeek-V3 平均表现超越其他模型。
代码： DeepSeek-V3 在算法类代码场景（Codeforces），远远领先于市面上已有的全部非 o1 类模型；并在工程类代码场景（SWE-Bench Verified）逼近 Claude-3.5-Sonnet-1022。
数学：在美国数学竞赛（AIME 2024, MATH）和全国高中数学联赛（CNMO 2024）上，DeepSeek-V3 大幅超过了所有开源闭源模型。
中文能力： DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近，但在事实知识 C-SimpleQA 上更为领先。
这些打榜的行为已经是所有新模型的惯例操作，而因为这些官方数据是在模型悄悄在社区以及一些AI Infra平台上线后才跟着发布，反而让它“口碑先行”，在人们纷纷体验了它的媲美头部模型的能力后，这些数据让开发者社区印象更为深刻。