DeepSeek新模型能将语言再压缩90%；Karpathy不再鼓吹Vibe Coding，说Agent落地还得10年｜智能晚报

Key Points

☆国内
DeepSeek-OCR把文字当成图片来处理，信息压缩率提升90%；
宇树发布第2款全尺寸人形机器人H2，关节数量较上代增加63%；
iPhone 17标准版在华销量较iPhone 16翻倍；
☆全球
Andrej Karpathy不再鼓吹Vibe Coding，反而说Agent落地还要10年；
Lilian Weng离开OpenAI后公开露面，说研究工作也需要创造「现实扭曲力场」；
亚马逊云服务中断15小时后恢复。

☆国内

DeepSeek-OCR把文字当成图片来处理，信息压缩率提升90%

10月20日，DeepSeek发布开源模型DeepSeek-OCR，将传统以语言序列处理的文字，转换为用图像识别的方式处理，从而实现对文档的压缩。

DeepSeek认为，传统的文字输入方式——即通过Tokenizer将语言拆解成最小单元（token）再转化为数字序列——在信息密度、排版特征及语义连续性上均存在天然局限。而视觉输入不仅能保留字体、颜色、格式等多维信息，还可用少量的视觉token来表明本需要大量文本token的内容，显著降低大模型的计算开销。

基于这种压缩方式，DeepSeek-OCR能将视觉上下文压缩至原始信息量的1/10以下，在OmniDocBench评测中，DeepSeek-OCR以更少的视觉token超越了GOT-OCR 2.0和MinerU 2.0等主流文档识别模型。

DeepSeek认为，该模型可以用于对话式AI的「记忆压缩」，通过降低旧对话的分辨率以保留语义主干，从而在不显著增加计算成本的前提下延长模型的上下文长度，模拟人类记忆随时间衰减的特性。有猜测称，这项技术正是Gemini得以保有巨大上下文窗口的关键。

特斯拉前AI负责人、OpenAI初创团队成员Andrej Karpathy在社交平台上对该论文表达赞赏。他表明，DeepSeek-OCR的研究让他重新思考大型语言模型的输入范式——或许未来的AI应该以图像而非文字作为主要输入形式。他长期批评Tokenizer体系「臃肿、低效、充满历史包袱」，认为直接以像素输入能让模型获得更自然的语义感知能力。

参考链接：

https://github.com/deepseek-ai/DeepSeek-OCR

https://x.com/karpathy/status/1980397031542989305

宇树发布第2款全尺寸人形机器人H2，关节数量较上代增加了63%

10月20日，宇树科技发布新一代仿生人形机器人Unitree H2，这是该公司继H1、G1、R1之后发布的第4款人形机器人，以及继H1之后的第二款全尺寸机器人。G1和R1都是身高和体积更小的半尺寸机器人。

00:00

H系列机器人变得像G1和R1一样灵活。

这款机器人身高180厘米，与2023年8月推出的首款全尺寸人形机器人H1身高一样，但体重从H1的47公斤增加至70公斤。官方视频中，H2能模仿芭蕾舞演员动作，还能流畅完成武术等复杂动作，表明即使是难度更大的全尺寸机器人，也能做到G1、R1那样半尺寸机器人的灵敏度。

H2配备31个关节，其中双臂各6个、躯干3个、双腿各7个，关机总数相较于H1提升63%，主要增加了手臂和腰部的活动自由度，使其上肢运动能力接近人类水平。此外，H2在H1的基础上增加了仿生人脸，外观和功能更接近科幻电影中的机器人形象。

参考链接：

https://weibo.com/1818617132/Q9ZqoACHP

iPhone 17标准版在华销量较iPhone 16翻倍

10月20日，Counterpoint Research发布数据称，iPhone 17系列在美国和中国上市前10天的销量分别比iPhone 16系列同期高出14%，其中标准版在中国市场的销量几乎翻倍。

DeepSeek新模型能将语言再压缩90%；Karpathy不再鼓吹Vibe Coding，说Agent落地还得10年｜智能晚报

iPhone 17标准版相较于iPhone 16在中国销量翻倍了，在美国并没有。

iPhone 17标准版拥有更好的芯片、改善的显示屏、更高的基本存储空间以及升级后的自拍相机，不过价格却与去年的iPhone 16持平。此外，iPhone 17 Pro Max在美国需求更为强劲，吸引了在疫情期间买上部手机的用户升级换代。

10月20日，苹果天猫官方旗舰店宣布参与天猫「双11」大促，其中，iPhone 17 Pro和Pro Max分别降价300元，而iPhone 17标准版则不参与此次降价。

参考链接：

https://counterpointresearch.com/en/insights/iPhone-17-Far-Outpaces-iPhone-16-Sales-in-China-and-US-During-First-10-Days-of-Availability

全球

Andrej Karpathy不再鼓吹Vibe Coding，反而说Agent落地还要10年

10月18日，OpenAI联合创始人、特斯拉前AI总监Andrej Karpathy在一次播客采访中称：当前的Agent在认知上存在缺陷，也没有持续学习能力。Karpathy以自己编程类Agent的经历为例，指出AI在编程场景中常常会误解用户对代码的需求，把代码复杂化，让最终的代码过于冗杂。

Karpathy认为，业内鼓吹「智能体元年」的提法过度乐观。创造一个能解决基础性缺陷、真正像秘书一样工作的Agent，大约需要10年，需攻克多模态、持续学习、使用计算机等瓶颈。

此外，Karpathy还指出当前训练模型的主流方法——强化学习存在根本性缺点。他认为强化学习要在大量试错后才能获得正确信号，无法像人类通过「反思」「类比」来得出正确结论，效率不高。Karpathy认为尽管现阶段强化学习依然是训练模型的最佳方法，但研究者未来应该研发出更优质的路径。

不过，最初认为AI已经强劲到可以取代人而非辅助人完成编程工作、并为此提出Vibe Coding这个概念的，正是Karpathy本人。他今年2月在X（原Twitter）撰文称，由于AI的存在，编程工作已经变得就像云中漫步一样的优雅体验，用户只需提出需求，AI就能自己生成、迭代和完善代码，而开发者本人已经无需再深入代码细节。

参考链接：

https://www.youtube.com/watch?v=lXUZvyajciY%20

Lilian Weng离开OpenAI后公开露面，说研究工作也需要创造「现实扭曲力场」

10月18日，OpenAI前研究与安全负责人、现Thinking Machines Lab联合创始人翁荔（Lilian Weng）在硅谷HYSTA年会上公开亮相。她回顾了在OpenAI的工作成果，并谈到离开OpenAI后的研究方向与创业路径。同日，她创立的Thinking Machines近期对外发布的「Tinker」API亦成为会场焦点。

年会上，她提到了在OpenAI时期团队研究工作中形成的「现实扭曲力场」。「现实扭曲力场」（Reality Distortion Field, RDF）源自对史蒂夫·乔布斯的描述：当一个人（或团队）对方向有足够的信念并密集试错时，表面「不可能」的目标可以被不断重写边界、最终落地。翁荔把这一心态迁移到科研语境：每个研究者都有属于其个人的小型RDF——在强信念与系统化探索的共同作用下，把难题一步步「扭」进可实现的解空间。

DeepSeek新模型能将语言再压缩90%；Karpathy不再鼓吹Vibe Coding，说Agent落地还得10年｜智能晚报

在虚拟环境中训练一套算法，用这套算法控制机械手，使其可以将魔方解开。

2017至2024年在OpenAI任职期间，翁荔早期曾在机器人团队主导「机械手解魔方」等项目，她和团队通过「自动领域随机化（ADR）」等Sim2Real技术，将纯仿真训练的策略迁移到现实世界，最终实现「机械手解魔方」等里程碑。翁荔称，这个过程中，她产生过「如果你信任某个方向，即使它看起来不可能，但只要足够努力、足够机智地尝试，就能找到成功的方法」的「现实扭曲力场」体验。

2024年离开OpenAI后，翁荔参与创办了Thinking Machines Lab，目标是把前沿多模态模型与高可靠训练基础设施做成「人人可用、可定制」的能力平台。

今年10月1日，Thinking Machines发布「Tinker」训练API。Tinker被定义为面向研究者与开发者推出的「托管式微调」（LLM fine-tuning）API：把它想象成「大模型训练的一站式接口」——你只需指定要用的基础模型和训练数据，Tinker就自动处理多机多卡分布式训练、容错与检查点、监控与扩缩容等工程细节，让团队像调用普通API一样快捷地完成微调与实验。Tinker支持LoRA以降低成本，并能够实现从小模型到大型 MoE（如Qwen-235B-A22B）之间一行代码切换。

Thinking Machines称，这些做法能够帮研究者在保留算法与数据主导权的同时，将分布式多GPU训练、容错与资源编排外包给平台。

目前，Tinker已覆盖Llama与Qwen等开源权重模型，并支持将训练后的权重下载到外部环境使用。产品已进入私测阶段，被普林斯顿、斯坦福、伯克利与红杉的研究团队用于真实项目场景。计划先免费开放，后续按用量计费。

参考链接：

https://lilianweng.github.io/

https://mp.weixin.qq.com/s/bZXfHtyCw9G7lWr_ihbn9g

亚马逊云服务中断15小时后恢复

10月20日，亚马逊AWS云服务在经历约15个小时的服务中断后，在纽约时间下午6点左右恢复正常运行。这次云服务中断波及包括亚马逊、Snapchat、Facebook、 Apple Music、Apple TV，以及游戏平台Fortnite和学习平台Canvas等。AWS的服务状态页面显示，本次服务中断的触发缘由是「亚马逊北部弗吉尼亚州数据工厂的DNS域名系统发送错误」。