• +1

科技连线|DeepSeek V4上线,AI世界正在改变的规则

澎湃新闻记者 张静
2026-04-29 15:53
来源:澎湃新闻
未来2% >
听全文
字号

4月24日,DeepSeekV4的预览版本正式上线并同步开源。百万超长上下文终结“Token焦虑”,API价格优势突出。新上线的DeepSeek V4解锁了哪些新能力?从V3到V4的这一年多时间里,AI世界发生了哪些变化,接下来行业还将朝向哪里去?

快思慢想研究院院长田丰日前做客《科技连线》,他表示,DeepSeek V4是开源模型里最强大的模型,与更大参数量的闭源模型相比,V4在编程和数学解题领域处于同一量级。1.6万亿参数的DeepSeek V4 Pro版本之所以引发关注,原因之一是,以往英伟达的标准级芯片就像电网,国产模型只能接入它的网,现在有了华为昇腾950超节点这个自己的“发电站”,能在自己的算力基础上训练万亿参数大模型,这是决定性的力量。“而且用户现在愿意付费,大家会花Token费用 ‘养龙虾’,这些收入会回流到大模型和芯片的研发投入上。最健康的模式就是市场买单,这是一个非常好的良性循环的开始。”

目前DeepSeek V4价格优势突出,Flash版本百万Token输入价格0.02元,输出2元。V4 Pro版本输入价格0.025元,输出价格6元。对比OpenAI GPT 5.5 Pro 30美元/百万Token的输入价格和180美元/百万Token的输出价格,DeepSeek“加量不加价”。田丰表示,DeepSeek每次发布新版本都会带来真实成本降低引发的价格战,从而掀起全行业降价潮。目前海外“卷不动”,“因为其大模型成本是中国的15到20倍。即便DeepSeek开源了论文和模型,他们也很难短期跟进,成本降不下来。”

大模型时代,AI人才流动节奏加快,“95后”走上重要岗位,担当AI业务负责人。田丰介绍,DeepSeek论文里列了300名工程人员,其中至少10位已离职,这是正常的人才流动,领先的技术能力会溢出到整个中国AI产业。AI 1.0时代的人才成长路径通常是中科大本科、港中文硕士、MIT或斯坦福博士,再回国创业。AI 2.0时代,本土大学毕业直接进入AI实验室,他们没有“硅谷是老大”的思想钢印,只要给予足够的权限和算力,每个人都能迸发出创新想法,找到架构上的大突破。在颠覆性技术快速迭代的背景下,过往的经验与技术积累反而可能转化为“技术债”,成为制约创新的惯性力量。年轻人才没有技术惯性,能够打破原有束缚,因而能够改变世界。可以说,中国本土研发团队能够打造世界级领先的基础模型,DeepSeek树立了科技自信。

以下是对话实录,略有删减

澎湃科技:之前大家都认为V4会在春节期间推出,但直到4月底才推出,这中间的原因可能有哪些?

田丰(快思慢想研究院院长):第一个原因在于适配国产芯片。目前全球大模型基本都优先适配英伟达平台。但今年一二月份,V4提出要从英伟达的CUDA适配到华为昇腾,这是一个大变动。这不仅需要基于国产华为芯片的算子库重写大量算子,还要进行精度对齐,确保在英伟达芯片和华为昇腾两套平台上运行同一算法或任何算法时最终结果一致。这非常不容易,至少花了两到三个月。

第二个原因是去年DeepSeek的研发路线也发生了一些重大变化,不过后来还是克服了阻力推进下去。第三个原因是与DeepSeek一同发布的还有美团等其他厂商的万亿参数大模型。为了集中更多最新的芯片集群,基础设施的搭建和调优同样需要时间。综合这些因素来看,其实只晚了三个月,效果已经非常惊人。

澎湃科技:V4有哪些亮点?比如百万Token的超长上下文,这已经不单是“能塞下一本书”了。这会解锁哪些以前完全做不到的新能力?另外,架构创新上提到的“压缩稀疏注意力”和“流形约束超连接”,能否用大白话给我们解释下,这些技术创新是怎么把模型性能做得更好的?

田丰:使用DeepSeek或其他大模型时,都会涉及上下文窗口。提了一个复杂问题,聊着聊着Token快用完了,模型就会产生“Token焦虑”——所剩不多时,它会赶紧答完,哪怕降低质量。所以窗口快关闭时,输出质量明显下降。为什么上下文窗口如此重要?假设图书馆有100万本书。一位同学想找某个主题的书。DeepSeek用了一种巧妙的压缩方式:把4本书浓缩成一张卡,100万本书变成25万张卡,在25万张卡里检索就容易多了,这就是“压缩稀疏注意力”。25万张卡还是多,能不能进一步重度压缩?把128本书压缩成一张卡,压缩率更大,当然这是有损的,100万本书就变成约7800张卡。这样一来,找书效率极高。有了这两种技术,100万上下文消耗的算力成本非常低。

V4还有一个技术叫“流形约束超连接”,其实也源于我们人类的一种沟通方式。大家可能都玩过一个游戏:十个人站成一排,第一个人拿到一句话后传给第二个人,第二个人再传给第三个人……玩到最后,第十个人听到的话往往完全走样。有人大嗓门导致“梯度爆炸”,有人声音小导致梯度消失、信息全损失掉。V4是一个61层的神经网络,相当于61个人在传递用户最开始的需求。往往传得越往后,噪音就会不断叠加,到最后信息完全失真。所以V4在这61个人传话时另外准备了一张小纸条,记录第一个人的原始需求。除了传递每个人自己的理解和输出,同时还传递这张记录原始需求的小纸条。这样一来,后面的每一步都能纠错,确保信息不失真。

澎湃科技:如果放在全球一线阵营里横向对比,V4目前到底处于什么位置?

田丰:从国际第三方权威评测来看,目前开源与闭源模型的差距极小。两三年前开源落后闭源一两代,但现在DeepSeek V4是开源模型里最强的。与更大参数量的闭源模型相比,我们在编程和数学解题领域处于同一量级。

目前的差距主要体现在世界知识和通用智能体层面,约有3-6个月的代差。V4发布前,斯坦福本月初发布的全球人工智能指数报告显示,中美最前沿模型性能差距已缩小至2.7%。V4的出现有望进一步缩短差距,甚至在V4.5或V5时实现反超,历史上中国模型曾交替领先。

此外,与Anthropic的Claude Opus 4.6及谷歌最新模型相比,仍有微小分数差距。为什么百科知识上存在差距?V4的推理水平已达研究生级别,但谷歌拥有全球百科知识库,世界事件、图书、用户提问每天都在训练其模型,这是谷歌几十年的积累优势。DeepSeek缺乏谷歌的这种积累,存在训练数据规模与质量的瓶颈。下一步需要提升训练数据集对全球知识的覆盖范围和深度。

当然,V4的价格很有优势,V4 Pro的API输出价格是百万Token 3.5美元,GPT-5.4百万Token输出价格是60美元,Claude Opus 4.7百万Token是75美元。所以在这种性能下,V4已经非常吸引人了。

澎湃科技:今年算力价格一直在上涨,云厂商、模型厂商都在提高API价格,但是V4反而“加量不加价”,为什么会产生这样一个反差?

田丰:价格战有两种可能:一是靠补贴血拼,二是通过工程技术架构创新,让训练和推理成本快速下降。DeepSeek每次发布新版本都会带来这种真实成本降低引发的价格战,从而掀起全行业降价潮。但目前美国卷不动,因为其大模型成本是中国的15到20倍。即便DeepSeek开源了论文和模型,他们也很难短期跟进,成本降不下来。

为什么技术成本越来越低,Token反而涨价?看似矛盾,其实有短期因素。第一,需求远大于供给。云计算从2013年至今一直在降价,这次涨价潮是因为“龙虾”(OpenClaw)。大家都去养龙虾,开发应用。春节期间字节的Seedance 2.0生成视频也导致用户量爆发,一个15秒的视频要等几小时。背后原因是数据中心不能快速扩增,比如买到10万卡,因为芯片生产、建设都需要时间。再加上今年能源变贵,内存条也在涨价,影响手机、汽车、PC和数据中心,短期因素共同推高了价格。但AI通过架构创新,推理成本仍在成倍下降,实际在加速降低成本。所以预计涨价不会持续太久。随着DeepSeek普及,无论是厂商利润增加,还是我们拿到更便宜的Token,这都是好事。

澎湃科技:DeepSeek补充说,受限于高端算力,pro服务吞吐有限,预计下半年昇腾950超节点批量上市后,pro价格会大幅下调。V4这次很关键的一步是把算力从英伟达转向了国产芯片。其实之前也有厂商宣布适配国产卡,但为什么DeepSeek这次的举动会引发这么大的讨论?

田丰:950超节点目前供不应求,大家都在抢这个国产算力。坦率讲,DeepSeek V4的Pro版本是1.6万亿参数的大模型,可以说是数一数二的在国产算力上训练出来的万亿参数国产大模型。它之所以引发关注,是因为以前英伟达的标准级芯片就像电网,我们只能接入别人的电网训练;现在我们有了自己的发电站——华为昇腾950超节点,能在自己的算力基础上训练万亿参数大模型,这是决定性的力量。

我们不可能拥有英伟达GPU的万卡集群,但依靠国内超节点,打造1万、5万、10万甚至50万块卡的国产GPU集群非常有希望。未来模型会走上快车道,无论是寒武纪还是华为的芯片,都会逐渐形成类似CUDA的标准,适配更多模型,不只是DeepSeek,还包括千问、Minimax、智谱等模型。而且用户现在愿意付费,大家会花Token费用“养龙虾”,这些收入会回流到大模型和芯片的研发投入上。最健康的模式就是市场买单,这是一个非常好的良性循环的开始。

澎湃科技:说到龙虾,V4更注重智能体任务了,像OpenClaw这类主流智能体产品也做了专门适配。你上手后的第一感觉怎么样?

田丰:我的感受是,以前一些复杂任务我会用谷歌模型,现在完全可以用V4,水平没问题,关键是谷歌收费而V4免费。第二,坦率讲,与Anthropic的Claude Opus 4.6旗舰模型相比,V4在一些复杂任务上的回答质量还有一点点差距,但我相信将来能追平并反超。

为什么说大模型和“龙虾”是两回事?因为大模型是问一句答一句,不会持续执行复杂流程。而“龙虾”就像一只手,你把任务告诉它,它就能全自动完成。现在大家说“龙虾”过时了,开始养“爱马仕”(Hermes),它有很强的自学能力:你在指导它工作时,它自己就能总结好,像聪明的实习生,自我反思并改进。但无论是“龙虾”还是“爱马仕”,背后都要调用模型,所以V4是非常好的选择。

澎湃科技:整体上,过去一年,海内外模型行业的竞争方向出现了哪些变化?编程、智能体似乎成为新的竞争内容,为什么会有这样的变化?

田丰:从行业分析报告看,商业模式最好、市场占有率最高、Token消耗量最大的AI应用是编程。因为编程是通用生产力,无论是开发人员,还是财务、法务、行政、项目管理、售前乃至中层经理,都在用AI编程工具开发自己想要的应用程序,很多公司已全员报销AI编程费用。Anthropic正是靠全球第一的编程产品Claude Code,市值反超OpenAI,甚至达到1万亿美元。V4也是个非常优秀的编程模型。但DeepSeek目前估值仅200亿-300亿美元,说明它被严重低估了。

澎湃科技:商业变现的重要性被提上日程,但DeepSeek选了开源路线。跟海外闭源厂商相比,开源的商业化能跑通吗?这和DeepSeek最近被传开启融资有关系?

田丰:要区分两件事,一是DeepSeek自身的商业模式,二是开源能否挣钱。开源其实是一种商业策略,不是慈善,完全可以通过多种方式盈利。比如模型免费但服务收费,手机、冰箱、空调等硬件嵌入DeepSeek收取授权费,提供定制化开发服务。所以开源完全可以挣钱,开源是一种商业模式。

但DeepSeek挣不挣钱跟开源关系不大,因为中国大模型普遍开源。而DeepSeek是开源最彻底的。坦率讲,DeepSeek至今没有打造类似ChatGPT或Claude Code的任何商业化产品,它更像一个学术实验室或研究院,所以难以估值。不排除拿到阿里、腾讯30亿美元投资后它推出商用产品,但这要看投资协议。DeepSeek更像美国当年的橡树岭实验室、臭鼬工厂或DeepMind,早期的DeepMind以研发为主,后来开发出的AlphaFold拿了诺奖。DeepSeek并没有想着去打造一个商业帝国,而是先要解决人类的根本性问题。V4免费开源后,全球哪怕是落后地区或国家,都可以用它支撑本国行业应用,造福全球80亿人。

澎湃科技:今年春节那波模型厂商“抢首发”还历历在目,同时可以看到高端AI人才在流动,DeepSeek被称为“国产之光”,聚光灯下,它现在面对的真实竞争环境是怎样的?

田丰:先从人才说起。DeepSeek这次论文里列了300名工程人员,其中至少10位已离职,被字节、腾讯、小米等公司挖走。每个人心里都有一个无法拒绝的数字,这是正常的人才流动,领先技术能力会溢出到整个中国AI产业,就像硅谷那样,从OpenAI出走的人创办了Anthropic、SSI等一批公司。为什么会有人走?还是回到估值问题。DeepSeek一直没有对外融资,员工手里的期权和股票没有升值空间。

再说发布节奏。Deepseek保持1年到1年半发布一个模型,在商业上比较吃亏。AI大模型已进入3个月的淘汰期,跟不上节奏,用户就会卸载或减少使用,月活下降。硅谷有个“灰姑娘的水晶鞋”定律:现有模型满足不了用户需求,用户就去尝试新模型,一旦发现特别好用、能解决特定需求,就会离不开并持续付费。每个模型快速迭代后,第一批用户非常忠诚,愿意付费。这就是为什么大家拼命在3-6个月、至少三四个月发新版本,用模型增长能力圈定一批忠实付费用户。DeepSeek不以商业为目标,所以比较吃亏,好处是它可以保持聚焦。

澎湃科技:不只是DeepSeek,整个行业都在年轻化。95后走上重要岗位,担当AI业务负责人,这在以前很难想象。你怎么看这股顶尖人才的流动趋势?

田丰:当颠覆式技术快速变革时,过去的经验和技术积累反而会变成一种“技术债”,成为拖后腿的惯性。反而是刚刚学完最新AI技术的博士生、研究生甚至本科生、小学生,没有技术惯性,能打破原有束缚,爆发出很好的生产力。

另一个因素在于,AI 1.0时代的人才路径通常是:中科大本科、港中文硕士、MIT或斯坦福博士,再回国创业。但2.0时代不同了,DeepSeek里很多人不是海归,而是本土大学毕业直接进入实验室。只要给予足够的权限和算力,每个人都能迸发出创新想法,找到架构上的大突破。他们没有“硅谷是老大”的思想钢印,不会轻易被美国吓倒,初生牛犊不怕虎,年轻人觉得可以改变世界。

DeepSeek的层级很简单:创始人梁文锋一层,所有技术人员为一层。这与OpenAI、Anthropic、DeepMind非常像。每个技术人员都可以提出创意想法,得到高层支持后组成小团队解决关键问题。往往不是大团队解决问题,而是精英小团队,一两个人迈过一个难关,三四人算中等团队,十人就算大团队了。人员和知识在公司内部流动非常快。这就是为什么95后甚至00后的AI天才工程师会涌现出来。这些公司没有山头,也没有部门墙,非常适合做基础研发创新。

澎湃科技:回顾这一年多来,DeepSeek给中国AI生态带来哪些变化,会改写哪些规则?

田丰:首先,中国的AI开源战略在DeepSeek发布第一版模型后,对产业界产生了巨大冲击和反思。此前,除阿里千问外,大多数厂商都闭源,而美国模型又特别昂贵。DeepSeek开源后,中国逐渐形成开源潮流,美国开始反思花巨资建数据中心值不值?回报在哪?DeepSeek用美国1/20甚至更少的算力,通过架构创新实现更高性价比,这让投资人和市场深刻反思,也改变了全球思路。

中美AI市场有鲜明差别:中国开源模型至少占半壁江山,开源免费且领先;而美国恰恰相反,开源模型仅占Token消耗流量的1/10,90%是闭源的,成本很高,用户每月可能要付两三百美元。最近Anthropic又要涨价,大家都快疯了。在美国那10%的开源流量中,只有1%来自中国的开源模型,说明中国开源模型在全球虽受欢迎,但在美国占比很小。

DeepSeek的发布还带来一个冲击:大家认识到中国本土研发团队真的能打造世界级领先的基础模型,这改变了大多数AI从业者的观念。原来我们算力差20倍,投资差十几倍,反过来,我们能不能超过他们?DeepSeek树立了科技自信。这种自信来自文化自信和历史底蕴。中国人重视教育、拥抱创新,全球AI团队中,华人可能占一半,甚至3/4。现在,AI软件、模型甚至Agent都不是我们的瓶颈。如果说还有一点瓶颈,可能在芯片层面,比如2nm、3nm、5nm的代工制程。但回想起“两弹一星”,当时连基础物理理论都没有,经济基础和人才基础远不如现在,依然成功了。只要足够专注,任何问题都能解决。相信在“十五五”期间,芯片和代工问题将得到突破,加上我们已经证明了的强大人才基础和爆发力,这就是DeepSeek带给我们的信心和憧憬。

澎湃科技:接下去的2026年,模型企业最终的战略方向是什么?就普通人的感知来说,模型带给我们的变化会是什么?

田丰:2026年模型发展的三个方向:第一是多模态,第二是智能体,第三是AI编程。

先说多模态。春节期间,普通人用即梦、小云雀等工具就能生成影视级的短视频,自己还能参演。字节的Seedance 2.0及即将发布的2.5,直接或间接导致Sora关闭,说明我们做得很好,海外视频生成并未真正崛起。现在漫剧、网剧、短剧大量采用AI视频制片,传统拍电影需要灯光、化妆、摄影,而AI影视时代只需要导演、编剧和剪辑,后期靠AI加工即可,成本仅为真人拍摄的1/10到1/20,每集每分钟约1000元。音频领域也有机会,例如OpenAI计划做手机、耳机、智能笔,很多交互通过音频完成,未来音频与智能体结合将提升交互效率和自然度,就像人与人对话一样,还包括AI眼镜。

第二,智能体。从“龙虾”到“爱马仕”,用过的人都会觉得好用。如果只是问天气,一问一答的大模型就够了。但智能体不是聊天机器人,而是串行的工作流,需要保证每一步的质量、顺序和自我改进能力,它像一个自动化生产线。在美国,有数据显示使用Claude CoWork等智能体超过18个月的老用户,会将其用于工作场景;使用3个月以内的小白用户多在生活场景使用。随着信任建立,用户会交给它更复杂困难的任务,最终变成生产力工具,并完成从免费到付费的转化。

第三,AI编程。AI编程正从只覆盖全球5%-8%的高收入人群,向全民扩展。现在只要会说中文,就可以告诉编程智能体“帮我编一个贪吃蛇”“编一个库存管理系统”等。它绕过了学习编程语言的阶段,只需精准描述功能需求和流程,逻辑清楚即可,就像写软件开发文档一样。找程序问题也能自动解决。建议每个人都抓住这次机会,不管是“养龙虾”还是AI编程,去实现自己想要的软件。很多人已经不敲文字了,直接用语音输入需求,很方便。

    责任编辑:宦艳红
    图片编辑:陈飞燕
    校对:施鋆
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2026 上海东方报业有限公司