鲸鱼睁眼时刻！DeepSeek多模态满血版将至，AI圈又要变天了？

内容分享2个月前发布

4 0 0

距离DeepSeek V4正式发布刚满5天，官方就已经连续来了三轮降价，甚至有用户在社交媒体上直接晒出了V4已接入鸿蒙原生版的消息。但就在所有人都以为这波操作已经够“燃”的时候，一位关键人物的发声，让整个AI圈彻底炸开了锅。

4月28日深夜，DeepSeek多模态团队负责人、北京大学博士陈小康在X平台（原推特）连续发布两条炸裂动态。

先是上线了一条“Soon， we see you”，随后秒删；紧接着，一条“Now， we see you”的新推文横空出世。配图更是直白——两只DeepSeek标志性的鲸鱼Logo并肩而立，左边那只依然戴着大眼罩，右边那只——睁眼了。

与此同时，DeepSeek用户端也传来了实锤：部分iOS用户在最新版DeepSeek App中已灰度测试到了“识图模式”，入口就安安静静地摆在输入栏，标注着“图片理解功能内测中。”

此前评论区还有人将它调侃为“鲸鱼夺宝”或者“吉祥物暴力崇拜”，但这次所有疑点都指向同一个方向：传说中缺失的“满血版DeepSeek V4”——原生多模态模型，真的要来了。

01 “眼里没光”的遗憾，到“鲸鱼睁眼”

实则DeepSeek V4的初次登场，更像一场“吃了一半的盛宴”。

4月24日，万众期待的DeepSeek V4预览版上线，官方交出了一份数据堪称恐怖的成绩单：V4-Pro总参数1.6万亿（激活参数490亿）、V4-Flash总参数2840亿（激活参数130亿），全系标配百万token超长上下文。

在更硬核的Agent能力上，DeepSeek-V4-Pro在Terminal Bench 2.0取得了67.9%的得分，Toolathlon达到51.8%，直接领跑工具调用与复杂指令执行赛道。

但测评再优秀，所有人都在心里问同一个问题：“多模态呢？”

毕竟在技术报告第6节的“Conclusion， Limitations， and Future Directions”中，官方已明确下一步将“将多模态能力融入模型体系”。

实际证明，DeepSeek不是忘了多模态，而是在等那个“开眼”的时机。

就在V4首次亮相5天后，不仅识图模式的代码和配置已经在网页对话框中全线部署，陈小康在社交平台两次公开喊话，也彻底掀开了这张牌。从“Soon”到“Now”，鲸鱼睁眼的信号已清晰可见——DeepSeek的多模态满血版，或将在5月全面放闸。

02 多模态到底有多“刚需”？

别觉得多模态只是一个“升级版文字识别”。

根据2025年行业报告数据，2024年中国大模型市场规模已达138.5亿元，同比增长67.3%；2025年预计攀升至236.8亿元。放眼全球，根据钛媒体引用数据，2025年全球多模态大模型市场规模预计突破4200亿元，中国市场占比达35%，稳居全球第二大单体市场。

更关键的变量还在于应用落地。IDC的报告显示，大模型客户需求正从概念验证（PoC）阶段迈入规模化生产阶段，越来越多企业将大模型嵌入客服、知识管理等核心业务系统。

而原生多模态能力的缺失，是AI在真实世界场景中落地最大的障碍之一。

如果DeepSeek能在这时候补上“原生多模态”这张牌——即让模型能同时理解文本、图像甚至视频输入，而不仅仅依赖OCR“读”文字——就会迎来三个极具冲击力的效果：

· 场景爆炸：从医疗影像到自动驾驶多轮决策、工厂视觉检测一一解锁，AI不再局限于文字助手；

· 数据天花板突破：开源原生的深度多模态能力，能让AI的感知维度从“文字世界”跃升至“物理世界”；

· 用户爆发：IDC报告中提到，目前除NLP模式外，其他模态模型的调用占比仅占20%左右，但增长趋势显著——多模态能力将大幅拉高付费调用量。

03 V4做基石，多模态是“最好的乘法”

要理解多模态满血版的威力，得先回顾DeepSeek V4这头“巨鲸”到底有多大能量。

第一是价格的降维打击。V4-Flash缓存命中后的百万token输入成本降至0.2元/百万，输出2元/百万；Pro版本缓存命中1元/百万（5月前叠加限时折扣后最低可做到0.025元/百万）。

这样的定价策略，直接让传统大模型烧钱的游戏规则彻底改写。此前，行业主流上下文窗口普遍在128K到256K之间，1M级别长期是谷歌Gemini的独占优势，如今被DeepSeek“打成标配”。

而多模态识图模式挂载在V4主干上后，相当于给这头巨鲸装上了眼睛——推理能力、知识理解、实时交互形成闭环。这背后有十足的底气支撑：V4在HLE测试中，Pro-Max版本的得分从Think High的34.5分提升至37.7分，Apex Shortlist也从85.5分提升至90.2分，超越OpenAI、Anthropic、谷歌等多个海外闭源旗舰模型。

当如此强悍的Agent架构，加上一个真正能看懂图片、分析画面因果关系的多模态前端，就相当于给AI增加了一套实时感知外部世界的视觉系统。

有推测称，即将推出的“满血版多模态大模型”可能不是简单地在V4上加一个视觉处理插件，而是基于原生多模态架构统一设计——这意味着模型本身采用自回归框架同步处理文本与视觉数据，在跨模态推理上更深度。

04 开源与普惠，谁是最终赢家？

说到这里，就必须提一个被许多人在网上忽略的关键点：DeepSeek V4已经在全面开源，所有API调用接口与OpenAI、Anthropic兼容。

如果即将推出的原生多模态能力同样开源，那么市面上将会出现一个真正的 “开源多模态超大模型” ——这意味着，一家中小型创业团队甚至可以零门槛调用百万级token上下文的视觉AI大模型，这在以前想都不敢想。

回顾2025年，整个行业的大模型演化趋势已经在向这个方向倾斜——长城证券研报指出，2025年是AI多模态应用与AI Agent商业化的元年，值得持续关注其商业化进展。

而DeepSeek如果果真在这时推出开源原生多模态模型，无疑将踩着风口继续拉大与其它选手的优势：一边是用低价打通底座（加上与华为、寒武纪等国产算力的深度优化合作正在加速，完成了从训练到推理的国产化部署），一边是用“看懂世界”的多模态能力捅破商业化和应用的天花板。

05 AI的下一个范式，从“阅读”到“看见”

从“快思考”到“长思考”，从文字输入到视觉识别，从机械应答到实时感知，AI正沿着越来越接近人类认知的路径演化。

对普通用户来说，多模态的加持意味着：把看不懂的电路板、复杂的Excel配图、看不懂的药品说明书直接拍给DeepSeek，它就能即时分析；对开发者来说，则意味着把AI Agent从“纯文本导航员”进化成“多模态世界模型”。

多模态是DeepSeek V4给自己上的一道最严肃的补品——甚至可以说，多模态满血版的发布，才是DeepSeek真正的完全体形态。

回到陈小康那条配文“Now，we see you. ”的X推文。