DeepSeek V4实测，是否能吊打其他模型

内容分享3个月前发布

等了半年，DeepSeekV4终于来了。最近有一位专门做模型横评的博主花了一整天时间认认真真测了这款模型，他说了一句话我觉得挺实在，没吊打但够惊艳。

·核心观点一：跟自己比，进步夸张。这位博主对比了V4和几个月前的V42，结果很直接，同一个系列进步幅度大到离谱。几个月前的3.2有些生成简直是灾难，但目前这个V4至少能打了。

·核心观点二：放到市场里没到头部。但换个角度跟其他模型放在一起比就没那么乐观了。Gemini3.1在体素建筑结构生成上优势很明显，OPPO 4.7的整体氛围和质感还是稳。GLM 5.1博主说跟V4基本在同一水平线，有时候甚至略好一点。所以他的判断是deepseek这次从落后一大截追到了第一梯队末尾，但没有像V3那时候把所有人远远甩开。

DeepSeek V4实测，是否能吊打其他模型

·核心观点三：翻车和亮点并存。最翻车的测试是金门大桥，空间比例乱调，车流向迷宫，海湾形状也奇怪。但有意思的是博主特别提到V4翻车的姿势跟别的模型不一样，有些地方错的还挺有特色。这可能说明模型的生成方向还没有完全趋同，多样性还在。

DeepSeek V4实测，是否能吊打其他模型

·核心观点四：Ui测试里的胜负。Ui测试里不同场景各有输赢。轨道旅行控制台opus赢了，规整的像真实产品。1907世博会网站Opus抓住了那种老派感觉，DP显得太现代复古。未来主义家居OS TACMAY赢了，那种可触摸感旋钮，收音机元素的确用心。垂直农场V4和GLM几乎分不出谁更好总结。

DeepSeek V4实测，是否能吊打其他模型

所以这位博主的最终结论是V4比自己以前强太多，值得鼓掌。但放在2026年4月的今天，它没有超过Opus，没有超过Gemini，大致跟CLM平起平坐，略优于Minimax和Muse，稳定性、创意性都还有提升空间。

DeepSeek V4实测，是否能吊打其他模型

两个值得关注的问题，他还提了两个自己最好奇的问题。

·第一Arena排行榜上V4最终能排第几？

·第二deepseek下一版要等多久？如果又要等半年，而QW那边几个月就出一个版本，那可能就追不上了。但如果他们能加快节奏，那后续还有得看。

结尾博主自己也说，别只看别人的评测，去arena上用自己的prompt跑一跑，可能会有不一样的发现。开源模型这场竞赛还远没到终点，甚至可能才刚刚开始，有意思起来。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Agentic AI系统架构师：构建可持续AI应用架构的思路

Agentic AI系统架构师：构建可持续AI应用架构的思路

4个月前

070

GoalfyMediaConverter – 本地视频处理神器,告别云端转换的烦恼!

GoalfyMediaConverter – 本地视频处理神器,告别云端转换的烦恼!

8个月前

0210

我愿称之为AI Agent最伟大的网站!

我愿称之为AI Agent最伟大的网站!

内容分享 # Agent # ai # AI产品经理

11个月前

28570

IMF紧急给出提醒，ClaudeMythos是危险工具还是安全的防护盾牌？

IMF紧急给出提醒，ClaudeMythos是危险工具还是安全的防护盾牌？

3个月前

170

暂无评论

none

暂无评论...