DeepSeek V4实测：别急着封神，也别急着唱衰

内容分享3小时前发布来对齐一下颗粒度

0 0 0

这两天，DeepSeek V4一发布，许多人第一反应就是：小厂又要干翻大厂了？

我先把结论放在前面：V4的确很强，而且毫无疑问是国产开源模型第一梯队。但如果说它已经成了“世界顶流”，甚至能直接碾压海外最强模型，我觉得还没到那个程度。

它更像是介于Claude 4.5和4.6之间的一个位置，能力上已经追上了Gemini 5.1、Kimi K2.66这一档国产头部模型。数学、推理、编程、长上下文都有亮点，但也有明显短板。

最遗憾的一点是：V4没有动态多模态。

这意味着它并不是一个全面进化的“核弹级产品”。至少从我的实际测试体验来看，它给了我惊喜，但没有给我那种“时代变了”的震撼。

真正让我觉得它有价值的地方，实则不是单点能力爆炸，而是官方标题里那句话：百万上下文的普惠时代。

说白了，就是上下文够长，价格够低。

这才是V4真正想打的牌。

先说价格。

V4这次有两个版本：Flash和Pro。

Flash超级便宜，输入1元，输出2元。相比上一代V3的2元输入、3元输出，又便宜了一截。更关键的是，它同样支持百万级长上下文。这个价格放在今天，的确可以叫“普惠”。

DeepSeek V4实测：别急着封神，也别急着唱衰

Flash和Pro的核心差异，官方也说得比较明确：主要在世界知识、复杂理解和综合能力上。

但从我的测试来看，Flash的Agent调用和编程能力并不差。如果只是一些日常任务、简单开发、轻量级工作流，它完全够用。

Pro就贵许多了，输入12元，输出24元。

许多人第一眼看到这个价格，肯定会觉得：这也不便宜啊。

的确不便宜。它比Gemini 5.1、Kimi K2某些档位甚至还要贵一点。但如果只看纯能力跑分，DeepSeek V4 Pro的确更强一些。再思考到它支持百万上下文，而许多同级模型还停留在20万上下文左右，这个价格就不是不能理解。

尤其在国内，如果你想找一个相对新、能力强、上下文又长的模型，可选项并不多。超过256K后来，许多模型的价格直接起飞，用起来真的会肉疼。

所以我理解的“普惠”，不是说它绝对便宜，而是说在百万上下文这个赛道里，它把门槛打下来了。

官方文档里还有一行小字：预计下半年算力到位后，价格会有明显下降。

DeepSeek V4实测：别急着封神，也别急着唱衰

我个人大胆猜一下，Pro的输出价格未来如果能从24元降到8元到12元之间，那它的竞争力会超级恐怖。当然，这只是我的美好愿望。

接下来聊我的实测。

第一项是编程。

我用官方API接入，让V4用Python写一个视频，主题是“做AI的感觉”，风格偏美式鬼畜。结果Pro和Flash表现都不错，各有优点。Pro的结构更完整，Flash的执行也很稳，没有明显拉胯。

这让我第一时间意识到：Flash的编程能力可能被低估了。

然后我又让它们写一个网页前端。由于测试当天正好是高峰期，速度稍微慢一点。正常情况下，它的输出速度大致在每秒40个token左右，属于主流水平。

V4 Pro第一次生成的版本里，角色不能移动，但其他部分正常。我让它修改一次之后，整体效果就超级顺滑，可以正常跑起来，我认为可以通过。

Flash版本第一次生成的页面，元素没有Pro丰富，但胜在能直接玩。对于这个价位来说，我也给通过。

网上还有人说它调用Scale会有问题，我也顺手测了一下，包括角色蒸馏、工具调用这些场景，Pro和Flash差距并不大，我这边没有遇到明显问题。

DeepSeek V4实测：别急着封神，也别急着唱衰

这就带来一个很现实的问题：Pro和Flash的价格差了这么多，体验差距真的有十倍吗？

至少在Agent和编程这两块，我觉得没有。

如果是普通工作流、简单自动化、轻量开发任务，我会优先选Flash。Pro当然更强，但它是真的烧钱。

第二项是人性化和中文理解。

这一项，Pro明显比Flash强。

我给V4 Pro发了一连串谐音梗、中文段子和语境梗，它几乎都能理解，而且解释得超级准确。它对中文语义、潜台词、语境关系的把握，比我预期要好。

Flash就明显弱一些。不是不能用，而是在世界知识、语境理解、复杂中文表达上，会出现一些小错误。这个差距本质上还是模型体量和训练能力带来的。

我平时有一个AI辅助工作流：文案我自己写，但AI会帮我整理思路、拆结构、做资料归纳、补充角度。以前我一直用Claude 4.6配合，体验超级顺。

国产模型里，第一个让我觉得能平替的，是Gemini 5.1。第二个，就是DeepSeek V4 Pro。

DeepSeek V4实测：别急着封神，也别急着唱衰

我让它根据我的几段想法给提议，它的反馈比较中肯，不会像一些小模型那样说一堆正确废话，也不会给人一种“听不懂人话”的感觉。它能提出一些有启发的角度，这点很重大。

而且V4 Pro有百万上下文。

表面上看，百万上下文只是比20万多了5倍，但实际体验不是这么简单。由于Agent系统里有一部分上下文是固定占用的，真正留给用户对话和资料的空间，可能会放大到7倍甚至10倍。

这对长文创作、资料分析、角色扮演、小说写作，体验提升超级明显。

当然，人性化测试里也有惊吓。

我看到有人测了一个脑筋急转弯：如何用一把刀，把四个同样的橘子平均分给四个孩子？

正确答案实则很简单：刀是干扰项，直接一人一个就行。

但V4在思考时，会反复纠结“为什么需要刀”，甚至陷入过度推理。这就是大模型常见的问题：它太想解决题目里每一个元素，反而被干扰项带偏。

不过也有惊喜。

DeepSeek V4实测：别急着封神，也别急着唱衰

我身边有朋友拿V4玩角色扮演，反馈相当不错。人物衣服、动作、场景指令都能跟得住，没有那种“怎么说都不听”的感觉。再加上百万上下文，对角色扮演玩家来说的确很友善。

更有意思的是，有人发现V4似乎存在一个特殊的角色扮演模式，只是网页端还没有开放。如果通过API写特定提示词，有机会触发角色内心OS。

这说明官方应该很清楚，许多DeepSeek用户不仅拿它写代码，也拿它写文章、写小说、做角色扮演。未来这块说不定还会有专门优化。

最后说我最期待、也最失望的一项：百万长上下文。

网上许多“大海捞针”测试，V4表现都很好。列如在一大段文本里藏一句话，然后让模型找出来，它基本都能找到。这说明它的召回能力的确不错。

但我没有做传统大海捞针。

我找了一份接近90万字的《武林外传》剧本，把整份内容塞进去，然后问了三个问题，难度逐渐增加。

第一个问题是：“炊事班的大周是做什么的？”

这个问题实则是一个定位点，出目前第60集附近，是一个小彩蛋。台词大意是：“买菜，我已经成为炊事班的大周了。”

这题不算特别难，但有干扰。由于“大周”不是《武林外传》的常规角色。

结果让我有点意外。

某些模型回答得超级准确，但DeepSeek V4第一次直接忽略了第一和第三个问题。如果我单独追问，它甚至会把“大周”理解成李大嘴。

我不信邪，又试了一次。

问题是，百万上下文问一次可不便宜。一次就是十几块钱，直播测试的时候我还现场充值，场面多少有点尴尬。

第二次它回答准确了一些，但第二个问题依然不够完整。第三个开放题没有标准答案，表现倒还可以。

更奇怪的是，我直接在网页端问，反而感觉它的长上下文回答更稳，而且还是免费的。我不知道为什么API侧体验会差一点，希望官方后续能继续优化。

毕竟长上下文是我最看重的功能。

如果DeepSeek V4在百万上下文上不能明显领先，那它为什么要收这么贵？这是一个很现实的问题。

所以整体看下来，我对V4的评价是：喜忧参半，但值得期待。

它不是“国内小厂一夜之间干翻全世界”的爽文主角，也不是有些人说的“不过如此”。它真实的位置应该是：国内顶流，世界一线，但还不是世界第一。

Flash很有性价比，适合大多数普通任务。

Pro能力更强，中文理解、世界知识、复杂推理更稳，但价格偏高，适合重度用户和专业场景。

百万上下文是它最大的卖点，也是它最需要继续打磨的地方。

如果后续价格真的降下来，长上下文稳定性再提升一截，那DeepSeek V4会超级有竞争力。

我不想硬吹，也不想硬黑。

作为一个长期关注AI的人，我更希望看到的是：国内模型继续追赶，继续迭代，继续把好用的能力做便宜。

这一次，DeepSeek V4没有让我感到“核弹爆炸”。

但它的确让我看到了一件事：国产大模型已经越来越接近世界第一梯队了。

这比任何爽文故事，都更值得期待。

内容分享

文章版权归作者所有，未经允许请勿转载。

linux 防火墙firewall-cmd 详解

内容分享

4个月前

050

Atlas: 检索增强语言模型的few-shot学习

内容分享

6个月前

000

【0基础到备战蓝桥杯】Day14

内容分享

5个月前

070

新实测 Seedance 2.0 加持的小云雀最新 Agent，我一键生成了龙王赘婿短剧

内容分享

4小时前

000

暂无评论

暂无评论...