快捷导航
查看: 37|回复: 0

DeepSeek V3刷屏,500万美金2000张卡训出的开源模型,跟OpenAI最烧钱模型一样好

[复制链接]

该用户从未签到

22

主题

1

回帖

160

积分

管理员

积分
160
发表于 3 天前 | 显示全部楼层 |阅读模式

新建项目 (59).png
在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又异常的好——

“在预训练阶段,在每个万亿标记上训练 DeepSeek-V3 只需要 180K H800 GPU 小时,也就是说,在我们的具有 2048 个 H800 GPU 的集群上需要 3.7 天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为 2664K GPU 小时。结合 119K GPU 小时的上下文长度扩展和 5K GPU 小时的后训练,DeepSeek-V3 的完整训练成本仅为 2.788M GPU 小时。假设 H800 GPU 的租金为每 GPU 小时 2 美元,我们的总训练成本仅为 557万美元。请注意,上述成本仅包括 DeepSeek-V3 的正式训练,不包括与架构、算法或数据相关的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3 进行了全面的基准测试。尽管 DeepSeek-V3-Base 的训练成本较低,但综合评估表明,DeepSeek-V3-Base 已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与 GPT-4o 和 Claude-3.5-Sonnet 等领先闭源模型的性能相当。”
新建项目 (58).png

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseek v3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
根据它的官方公告,它在多项评测成绩上,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

新建项目 (57).png
Deepseek罗列了几个关键的表现领域:
百科知识: DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。
长文本: 在长文本测评中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表现超越其他模型。
代码: DeepSeek-V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非 o1 类模型;并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
数学: 在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了所有开源闭源模型。
中文能力: DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AI Infra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为深刻。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

客服热线
400-1234-888 周一至周日:09:00 - 21:00
公司地址:北京市朝阳区科技路88号现代城5号楼

新锐创想是一个融创意、设计、技术开发、服务为核心的新锐互联网公司,专注于Discuz!周边插件开发和精品模板设计,坚持为客户打造高品质的精品模板和插件。

Powered by Discuz! X3.5 © 2001-2013 Comsenz Inc.

QQ|Archiver|手机版|小黑屋|新锐创想轻主题社区模板 V3.8 ( 粤ICP备16073468号-1 )

GMT+8, 2025-5-1 10:40 , Processed in 0.110001 second(s), 28 queries .

快速回复 返回顶部 返回列表