具身智能的“ImageNet时刻”来了！全球首个大规模真机考场RoboChallenge发布，30道题直击软肋

作者 | 王启隆责编 | 梦依丹

我们都看过那些视频。一只灵巧的机械臂，用一种近乎优雅的姿态，为你倒一杯咖啡，叠一件衣服，甚至做一份素食三明治。视频里的机器人往往动作流畅，目的明确，每一次看到，我们都会忍不住惊叹，那个通用机器人帮我们处理琐碎家务的未来，似乎就在眼前。

但每次惊叹过后，一个问题总会悄悄浮现：然后呢？

这个完美的演示，能在我们家里的厨房复现吗？如果洗衣机的品牌、操作按钮都不一样，它还知道怎么使用吗？如果我家的 T 恤比视频里的更软、更薄，它还能叠得那么整齐吗？当一个团队宣称它的模型成功率高达 95% 时，我们更是无从知晓这个数字背后的真实场景——是由熟悉机器人脾性的工程师精心布置，还是在一个充满随机性的真实环境中独立完成？

我们不缺机智的算法，也不缺看起来很酷的演示视频。我们缺的是一把公认的、可靠的尺子。

整个领域似乎都在呼唤一个东西。一个不属于任何单一团队，中立、开放的第三方“试炼场”。一个地方，无论你是来自顶尖高校，还是一个初创公司，都必须在一样的规则下，面对一样的难题。在这里，没有精心设计的“甜蜜点”，只有混乱而真实的物理世界。在这里，所有的模型都必须卸下光环，接受最严苛的检验，让数据本身说话。

这个地方，将成为具身智能的“真实考场”。

最近，一个由 Dexmal 原力灵机联合 Hugging Face 共同发起的项目，似乎正是在尝试构建这样一个“考场”。它叫 RoboChallenge，一个听起来就充满挑战意味的名字。它没有发布又一个炫技视频，而是把全部精力都投入到了定义“考卷”和“考场规则”这些最基础、最困难，也最重大的工作上，尝试为这个喧嚣的领域，建立一套严格、透明且可信的度量衡。

具身智能的“ImageNet时刻”来了！全球首个大规模真机考场RoboChallenge发布，30道题直击软肋

公平的悖论

在真实世界里测试机器人，听起来简单，做起来却充满了陷阱。最大的一个陷阱，就是“人”。

想象一下，一个测试任务是让机器人把桌上的一个盒子放进柜子里。很简单，对吧？但结果可能天差地别，而这差异的根源，可能仅仅是由于摆放盒子的测试员不同。

RoboChallenge的团队在一篇报告里提到了一个超级有意思的观察，他们把测试员分成了三类：经验丰富的测试员、一无所知的测试员，和“自适应”的测试员。

经验丰富的测试员，就是那些收集训练数据的人。他们超级清楚这个机器人模型“喜爱”盒子摆在哪个位置，哪个角度。为了让结果尽可能地“好”，他们会下意识地把盒子放在那些模型最容易成功的地方。这当然是人之常情，但它污染了测试的公正性。

一无所知的测试员，是完全的新手。他们只是按照指令把盒子放在桌上。听起来很公平？但他们的行为充满了随机性。可能他今天心情好，把盒子摆得特别正。明天他累了，随手一扔，盒子是斜的。这种巨大的随机性，会让测试结果像坐过山车，今天成功率 100%，明天可能就是 0。这样的结果，我们能信任吗？

最有趣的是第三种，“自适应”的测试员。他们一般就是算法的作者。他们太想证明自己的模型有多出色了。在一次次测试中，他们会像一个精明的赌徒，不断寻找牌桌上的规律。他们会发现，只要盒子摆放在桌子左上角那个特定的“甜蜜点”，机器人的成功率就会奇迹般地飙升。于是，在后续的测试中，他们会有意无意地，把盒子一次次地放在那个被验证过的“甜蜜点”附近。

具身智能的“ImageNet时刻”来了！全球首个大规模真机考场RoboChallenge发布，30道题直击软肋

这听起来有点像作弊，但更多的是一种人性的自然流露：只要有人类参与，绝对的客观几乎是不可能的。人类的意图、经验、甚至潜意识，都会像幽灵一样笼罩在测试场上空，让所谓的“成功率”变成一个可以被操纵的数字。

这个问题不解决，任何真机测试都像建立在流沙之上。我们看到的可能不是算法的真实能力，而是测试员“导演”能力的比拼。

RoboChallenge给出的解决方案，简单而巧妙，甚至可以说有点“笨”。他们创新性地提出了一种叫做“视觉输入匹配”的方法。

在测试开始前，系统会从海量的演示数据中，随机抽取一帧初始状态的图像。这张图像会像一个半透明的“幽灵”一样，叠加在测试员眼前的实时监控画面上。测试员的任务，不再是“把盒子放在桌上”，而是变成了一个类似“找不同”的游戏：动手调整桌上物体的姿态和位置，直到实时画面和那个半透明的“幽灵”图像完全重合。

具身智能的“ImageNet时刻”来了！全球首个大规模真机考场RoboChallenge发布，30道题直击软肋

这个方法，一举解决了之前提到的所有问题。

它消除了经验带来的偏见。测试员不再需要知道模型的“喜好”，他只需要对齐图像。他的经验在这里毫无用武之地。

它也消除了巨大的随机性。每一次测试的初始状态，都被严格地“锚定”在了某个历史上的真实瞬间。这为不同模型、不同团队之间的比较，提供了一个坚实的基准。

更重大的是，它极大地降低了测试的门槛，让大规模的、可扩展的评测成为了可能。你不需要是一个经验丰富的机器人专家，你只需要有足够的耐心，去玩好这个“对齐”游戏。

具身智能的“ImageNet时刻”来了！全球首个大规模真机考场RoboChallenge发布，30道题直击软肋

机器人领域的“ImageNet时刻”

在计算机视觉领域，有一个名词是绕不开的：ImageNet。

在 ImageNet 出现之前，图像识别算法的进展，有点像一盘散沙。每个团队都在用自己的小数据集进行测试，大家公说公有理，婆说婆有理，谁也说服不了谁。

直到 2009 年，ImageNet 横空出世。它用一个包含了超过 1400 万张、覆盖 2 万多个类别的超大规模标注数据集，为整个领域提供了一个共同的靶子，一个公认的竞技场。

从那后来，每年的 ImageNet 大规模视觉识别挑战赛（ILSVRC），都成了计算机视觉领域的“奥林匹克”。所有顶尖的团队都来这里一决高下。正是在这个竞技场上，我们见证了 AlexNet 的石破天惊，见证了深度学习时代的开启。

RoboChallenge 正在做的，就是希望在更复杂的具身智能领域，复刻这个“ImageNet 时刻”。而他们推出的第一个基准测试集，叫做 Table30。

具身智能的“ImageNet时刻”来了！全球首个大规模真机考场RoboChallenge发布，30道题直击软肋

Table30，顾名思义，包含了 30 个在桌面上进行的操作任务。在过去，行业内的机器人竞赛或者评测，任务数量一般只有 3 到 5 个。这寥寥几个任务，更像是“特长展示”，团队可以针对性地进行优化，甚至“应试”。

而 30 个任务，意味着你必须思考“通用性”。

为了精准评估VLA算法的核心能力，RoboChallenge的首期“考场”搭建了由UR5、Franka Panda、COBOT Magic Aloha及ARX-5四类主流机型组成的标准化平台。现阶段，所有机械臂均配备夹爪，以建立一个清晰的评测基线，未来则会支持更多样的执行器类型。在感知方面，平台标配了多视角RGB与对齐深度信息的传感方案，以同时满足二维识别与三维推理的需求。这种克制而专注的设计，同样为未来留足了空间，例如计划在后续版本中集成力控或触觉传感器，以应对更复杂的任务。

这些任务听起来都是我们日常生活中的小事，但对机器人来说却是巨大的考验。列如，“叠洗碗布”（fold dishcloth），这涉及到对柔软、易变形物体的理解，可以说是目前所有机器人的噩梦。刚性物体，有明确的物理边界和可预测的运动轨迹。而一块布，你从不同的地方拎起来，它的形态是完全不同的，每一次互动都会产生无穷的变化。

又列如，“把薯条倒进盘子里”，这需要机器人理解容器和被包含物的关系，同时要准确控制倾倒的姿态和速度。再列如，“制作素食三明治”，这是一个多步骤、长序列的任务，机器人需要记住操作的顺序，先放生菜还是先放番茄，不能出错。

还有“双手协同”的任务，列如“将透明胶带粘到盒子上”，可能需要一只手固定盒子，另一只手拉伸和粘贴胶带。这极度考验模型的双手协调能力和对空间关系的理解。

这些任务的设计，充满了巧思。它们不是随机挑选的，而是经过一个科学的分类学框架精心构建的。这个框架从四个维度来解构任务的难度：算法挑战、机器人类型、场景地点和目标物体。

通过这 30 个看似简单却暗藏玄机的任务，Table30 像一个精密的体检仪器，能全方位地扫描一个算法模型的“能力图谱”。它到底擅长精细操作，还是更懂双手协同？它是在处理软体物体时束手无策，还是在长期记忆上存在短板？所有的优缺点，都会在这个“考场”里被量化，被放大。

具身智能的“ImageNet时刻”来了！全球首个大规模真机考场RoboChallenge发布，30道题直击软肋

更有意思的是它的评分机制。传统的机器人测试，往往是“成王败寇”的二值化评估。任务完成了，就是 1，没完成，就是 0。这种方式过于粗暴。一个模型可能完成了 99% 的步骤，在最后一步由于一个微小的误差失败了，它得到的分数，和一个从一开始就完全不动弹的模型，是完全一样的。

Table30 创新性地引入了“进度评分”系统。它把一个复杂的任务，拆解成多个关键阶段。每完成一个阶段，模型就能获得相应的分数。列如“打开抽屉”这个任务，可以分解为“手臂到达抽屉附近”、“抓住把手”、“成功拉开”等步骤。即便最后一步失败了，模型也能由于它在前面步骤的努力而得到认可。

这个设计，让评估变得更加精细，更能体现出不同模型之间的“代差”。一个平庸的模型和一个优秀的模型之间的差距，不再是 0 和 1 的鸿沟，而是一条连续的、可以被准确度量的光谱。

而初步的测试结果，比任何语言都更有说服力，甚至堪称震撼。

具身智能的“ImageNet时刻”来了！全球首个大规模真机考场RoboChallenge发布，30道题直击软肋

这张图清晰地揭示了两点。第一，是模型之间残酷的性能差距。以Pi05为代表的蓝色曲线，在成功率和得分上都全方位地、大幅度地领先于其他模型，这不是微小的改善，而是清晰的“代差”。这证明了Table30这把尺子的准确性——它能毫不含糊地告知你，谁是目前的领跑者。

但更重大、也更令人兴奋的是第二点：即便是最强的Pi05，其表现曲线也随着任务难度的增加而陡峭下滑，最终和所有模型一样归于零。这意味着，这个“考场”的难度是足够大的，它远未被任何现有模型“征服”。对于整个具身智能领域而言，这无疑是最好的消息：一个巨大的、充满挑战的、并且可以被清晰度量的创新空间，已经被打开了。

具身智能的评测一直徘徊在两个极端。

一端是大规模的仿真测试。在虚拟世界里，我们可以轻松模拟成千上万个场景，进行海量测试。但众所周知，仿真与现实之间存在着难以逾越的“Sim-to-Real Gap”，在模拟器里跑得再好的模型，到了真实物理世界也可能寸步难行。

另一端是小规模的真机测试。一些竞赛或研究中会用到真实机器人，但正如我们前面提到的，其任务量往往只有个位数。这种“管中窥豹”式的评测，无法系统性地衡量模型的泛化能力，更谈不上成为行业公认的基准。

这就形成了一个巨大的市场空白：行业内始终缺少一个兼具“真实物理世界”和“大规模、多任务”两大特性的公开评测平台。

RoboChallenge 的出现，正是为了填补这一空白。它不是对现有评测体系的微小改良，而是第一次，将“大规模、多任务”的评测标准，从仿真世界，真正带到了复杂的物理现实中。从这个意义上说，它是全球首个真正意义上的大规模多任务真机基准测试平台。而它要做的第一件事，就是像 ImageNet 为计算机视觉领域所做的那样，建立一个划时代的“考场”。

具身智能的“ImageNet时刻”来了！全球首个大规模真机考场RoboChallenge发布，30道题直击软肋

没有机器人，一样做实验

解决了公平性和规模化的问题，RoboChallenge 还想解决另一个更根本的问题：可及性。

机器人研究，在传统上是一个门槛极高的领域。它不仅需要深厚的算法知识，还需要昂贵的硬件设备、复杂的物理场地和专业的维护人员。一个顶尖的机器人实验室，投入动辄数百万甚至上千万。

这无形中将许多有才华但资源有限的研究者，挡在了门外。

许多时候，一个博士生想验证自己新想到的一个算法，可能需要排队等上好几个星期，才能轮到实验室里那台宝贵的机器人。这种资源上的瓶颈，极大地拖慢了整个领域的创新速度。

RoboChallenge 提出的解决方案，是革命性的，四个字就能概括：“远程机器人”。

他们的理念是，让全世界任何一个角落的研究者，只要有网络，就能连接到他们部署在中国的机器人集群上，进行真实的物理测试。真正实现“没有机器人，一样做实验”。

具身智能的“ImageNet时刻”来了！全球首个大规模真机考场RoboChallenge发布，30道题直击软肋

这背后是一套超级创新的系统架构。传统的远程测试，往往要求用户把自己的模型、代码、甚至整个软件环境打包成一个 Docker 镜像，上传到服务器上。这个过程超级繁琐，而且极易出错。不同版本的操作系统、不同的软件依赖库、不同的 GPU 驱动，任何一个微小的差异，都可能导致你的代码在别人的机器上跑不起来。

RoboChallenge 彻底抛弃了这种笨重的模式。他们选择了一种更轻、更灵活的“Model API Call”方式的变种。研究者不需要提交任何模型文件或代码。模型始终运行在用户自己的电脑上。

整个过程是这样的：用户的模型通过一个标准的 HTTP API，向 RoboChallenge 的服务器发送一个“请求”，说“我想看看目前机器人眼前是什么样子”。服务器就会立刻把机器人的多个摄像头捕捉到的、带有准确时间戳的图像和深度信息，传回给用户。用户的模型在本地进行计算，得出下一步应该执行的动作，然后再通过 API 把这个动作指令，发送到机器人的“动作队列”里。

这个双向、异步的控制机制，给了研究者极大的自由度。他们可以实现超级复杂的控制策略，列如根据网络延迟动态调整决策频率，或者同时运行多个模型进行集成决策。所有的计算都在本地，所有的控制都通过云端，整个过程就像是把机器人的“眼睛”和“手臂”延伸到了全球各地。

为了让这个体验更顺畅，他们还做了一个智能作业调度系统。用户提交测试请求后，系统会告知他，大致需要排队多久。这样，用户就可以先去忙别的事情，让自己的宝贵 GPU 去做别的计算。在测试即将开始前的几分钟，系统会发出通知，用户的程序再开始加载模型、预热 GPU，以最佳状态进入测试。

这种云端化的服务，在尝试拆掉那些横亘在机器人研究者面前的、由硬件和资源构筑的高墙，让创新的机会，能更公平地流向每一个有智慧的头脑。

具身智能的“ImageNet时刻”来了！全球首个大规模真机考场RoboChallenge发布，30道题直击软肋

从实验室智能，到现实世界智能

任何一个宏大的愿景，都需要一个脚踏实地的起点。Dexmal 原力灵机，这家成立不久却星光熠熠的公司，选择将 RoboChallenge 作为自己向世界发出的第一声问候。

这是一家很有意思的公司。它的创始团队，大多来自清华姚班，在中国顶尖的人工智能公司里身经百战。他们不是那种只会写论文的学者，而是经历过将算法技术转化为千万级产品的残酷洗礼的实干家。他们懂算法，懂硬件，更懂场景。这种“算法+硬件+场景”的复合基因，让他们在看待具身智能这个领域时，有了一种超级务实的视角。

而对于任何一个身处其中的研究者或工程师来说，最重大的问题永远是那个：“所以，我该怎么做？”

这恰恰是RoboChallenge最令人兴奋的地方。它不仅仅停留在理念的倡导，更是提供了一套清晰、完整的路径，让任何人都可以将自己的想法付诸实践。

整个过程，就像一场精心设计的寻宝游戏，目标就是挖掘出你模型的真实潜力。

一切都始于一个公开的数据集。你不需要自己费力去录制、去标注。RoboChallenge已经将所有任务的演示数据托管在Hugging Face上，你可以随时下载。这不是冰冷的合成数据，而是成千上万段真实机器人与物理世界互动的记录，充满了各种微小的、不可预测的细节。

拿到数据后，就是你施展才华的时刻。你可以用这些数据来微调你自己的模型，无论是专攻某项任务的“专才”，还是尝试通吃所有任务的“通才”。

当你觉得模型已经准备就绪时，就到了最关键的一步：通过API，让你的模型与远方的真实机器人“灵魂连接”。你的代码运行在你的电脑上，但它的每一个决策，都将通过网络，转化为物理世界里一次真实的抓取、一次精准的放置。这不再是模拟，这是你的算法在真实物理法则下的终极考验。

最后，你会看到结果。不是一个冷冰冰的成功或失败的标签，而是完整的测试录像和详细的机器日志。你可以像法医一样，逐帧分析你的模型在哪里犹豫，在哪里犯错，在哪里展现出超越预期的“灵性”。这本身就是一个无价的学习和迭代过程。

过去那种依赖于精美 PPT 和炫技短视频的时代或许正在过去。一个更加务实、更加透明、一切用真实数据说话的时代已经到来。

RoboChallenge的考场已经开放。目前，轮到你带上模型，亲自入场了。