距离DeepSeek V4正式发布刚满5天,官方就已经连续来了三轮降价,甚至有用户在社交媒体上直接晒出了V4已接入鸿蒙原生版的消息。但就在所有人都以为这波操作已经够“燃”的时候,一位关键人物的发声,让整个AI圈彻底炸开了锅。

4月28日深夜,DeepSeek多模态团队负责人、北京大学博士陈小康在X平台(原推特)连续发布两条炸裂动态。
先是上线了一条“Soon, we see you”,随后秒删;紧接着,一条“Now, we see you”的新推文横空出世。配图更是直白——两只DeepSeek标志性的鲸鱼Logo并肩而立,左边那只依然戴着大眼罩,右边那只——睁眼了。
与此同时,DeepSeek用户端也传来了实锤:部分iOS用户在最新版DeepSeek App中已灰度测试到了“识图模式”,入口就安安静静地摆在输入栏,标注着“图片理解功能内测中。”
此前评论区还有人将它调侃为“鲸鱼夺宝”或者“吉祥物暴力崇拜”,但这次所有疑点都指向同一个方向:传说中缺失的“满血版DeepSeek V4”——原生多模态模型,真的要来了。
01 “眼里没光”的遗憾,到“鲸鱼睁眼”
实则DeepSeek V4的初次登场,更像一场“吃了一半的盛宴”。
4月24日,万众期待的DeepSeek V4预览版上线,官方交出了一份数据堪称恐怖的成绩单:V4-Pro总参数1.6万亿(激活参数490亿)、V4-Flash总参数2840亿(激活参数130亿),全系标配百万token超长上下文。
在更硬核的Agent能力上,DeepSeek-V4-Pro在Terminal Bench 2.0取得了67.9%的得分,Toolathlon达到51.8%,直接领跑工具调用与复杂指令执行赛道。
但测评再优秀,所有人都在心里问同一个问题:“多模态呢?”
毕竟在技术报告第6节的“Conclusion, Limitations, and Future Directions”中,官方已明确下一步将“将多模态能力融入模型体系”。
实际证明,DeepSeek不是忘了多模态,而是在等那个“开眼”的时机。
就在V4首次亮相5天后,不仅识图模式的代码和配置已经在网页对话框中全线部署,陈小康在社交平台两次公开喊话,也彻底掀开了这张牌。从“Soon”到“Now”,鲸鱼睁眼的信号已清晰可见——DeepSeek的多模态满血版,或将在5月全面放闸。
02 多模态到底有多“刚需”?
别觉得多模态只是一个“升级版文字识别”。
根据2025年行业报告数据,2024年中国大模型市场规模已达138.5亿元,同比增长67.3%;2025年预计攀升至236.8亿元。放眼全球,根据钛媒体引用数据,2025年全球多模态大模型市场规模预计突破4200亿元,中国市场占比达35%,稳居全球第二大单体市场。
更关键的变量还在于应用落地。IDC的报告显示,大模型客户需求正从概念验证(PoC)阶段迈入规模化生产阶段,越来越多企业将大模型嵌入客服、知识管理等核心业务系统。
而原生多模态能力的缺失,是AI在真实世界场景中落地最大的障碍之一。
如果DeepSeek能在这时候补上“原生多模态”这张牌——即让模型能同时理解文本、图像甚至视频输入,而不仅仅依赖OCR“读”文字——就会迎来三个极具冲击力的效果:
· 场景爆炸:从医疗影像到自动驾驶多轮决策、工厂视觉检测一一解锁,AI不再局限于文字助手;
· 数据天花板突破:开源原生的深度多模态能力,能让AI的感知维度从“文字世界”跃升至“物理世界”;
· 用户爆发:IDC报告中提到,目前除NLP模式外,其他模态模型的调用占比仅占20%左右,但增长趋势显著——多模态能力将大幅拉高付费调用量。
03 V4做基石,多模态是“最好的乘法”
要理解多模态满血版的威力,得先回顾DeepSeek V4这头“巨鲸”到底有多大能量。
第一是价格的降维打击。V4-Flash缓存命中后的百万token输入成本降至0.2元/百万,输出2元/百万;Pro版本缓存命中1元/百万(5月前叠加限时折扣后最低可做到0.025元/百万)。
这样的定价策略,直接让传统大模型烧钱的游戏规则彻底改写。此前,行业主流上下文窗口普遍在128K到256K之间,1M级别长期是谷歌Gemini的独占优势,如今被DeepSeek“打成标配”。
而多模态识图模式挂载在V4主干上后,相当于给这头巨鲸装上了眼睛——推理能力、知识理解、实时交互形成闭环。这背后有十足的底气支撑:V4在HLE测试中,Pro-Max版本的得分从Think High的34.5分提升至37.7分,Apex Shortlist也从85.5分提升至90.2分,超越OpenAI、Anthropic、谷歌等多个海外闭源旗舰模型。
当如此强悍的Agent架构,加上一个真正能看懂图片、分析画面因果关系的多模态前端,就相当于给AI增加了一套实时感知外部世界的视觉系统。
有推测称,即将推出的“满血版多模态大模型”可能不是简单地在V4上加一个视觉处理插件,而是基于原生多模态架构统一设计——这意味着模型本身采用自回归框架同步处理文本与视觉数据,在跨模态推理上更深度。
04 开源与普惠,谁是最终赢家?
说到这里,就必须提一个被许多人在网上忽略的关键点:DeepSeek V4已经在全面开源,所有API调用接口与OpenAI、Anthropic兼容。
如果即将推出的原生多模态能力同样开源,那么市面上将会出现一个真正的 “开源多模态超大模型” ——这意味着,一家中小型创业团队甚至可以零门槛调用百万级token上下文的视觉AI大模型,这在以前想都不敢想。
回顾2025年,整个行业的大模型演化趋势已经在向这个方向倾斜——长城证券研报指出,2025年是AI多模态应用与AI Agent商业化的元年,值得持续关注其商业化进展。
而DeepSeek如果果真在这时推出开源原生多模态模型,无疑将踩着风口继续拉大与其它选手的优势:一边是用低价打通底座(加上与华为、寒武纪等国产算力的深度优化合作正在加速,完成了从训练到推理的国产化部署),一边是用“看懂世界”的多模态能力捅破商业化和应用的天花板。
05 AI的下一个范式,从“阅读”到“看见”
从“快思考”到“长思考”,从文字输入到视觉识别,从机械应答到实时感知,AI正沿着越来越接近人类认知的路径演化。
对普通用户来说,多模态的加持意味着:把看不懂的电路板、复杂的Excel配图、看不懂的药品说明书直接拍给DeepSeek,它就能即时分析;对开发者来说,则意味着把AI Agent从“纯文本导航员”进化成“多模态世界模型”。
多模态是DeepSeek V4给自己上的一道最严肃的补品——甚至可以说,多模态满血版的发布,才是DeepSeek真正的完全体形态。
回到陈小康那条配文“Now,we see you. ”的X推文。
许多人问:那只睁眼的“深海鲸鱼”,到底看到了什么?
它可能看到了一个原本相互胶着的AI格局,正在被一个开源的、更机智的、且真正看得见世界的巨人轰然打破。
它可能看到了下一个技术鸿沟已经不再是文本、工具调用或百万上下文,而是一个完全能理解视觉图像与逻辑语义的多模态新大陆。
5天前,它还是戴着眼罩的巨人;5天后,这台高能理解世界的超级引擎,就要对全世界说——
我看见了。
(全文完)

