为什么机器人能完成普通人做不了的空翻这种高难度动作，却做不了普通人都能做的稳定的端茶倒水？

可以理解的是，端茶倒水存在变量，前后空翻属于单一属性的单体运动，相比来说更容易实现。

之前我曾经把人和机器人的倒水行动分析一遍：

人：找到饮水机，拧开杯盖，放上杯子，按下出水键，倒到7分满，拿起杯子一饮而尽。

机器人：拿起杯子，并用右手握住杯子，搜寻最近的饮水机，走向饮水机，到达饮水机接水口，用手将杯子放在接水口下方的位置，检查水杯杯口没有超出出水范围，找到饮水机的出水键，用手点击出水键，确认饮水机正在出水，预计15秒后杯中达到7分满的水位，第12秒点击关水键，确认杯内水位为7分满，用手握住杯子，抬起杯子，将水杯移动至指定的桌上，到达桌子的指定杯位，确认水杯放置平稳状态，确认水杯已放置指定范围内。（粗略示意版，实际上还有不少任务

从执行任务来看，人的操作是非常简单，如果对机器人来说，每一个步骤都需要关节力矩以及示教坐标点，而机器人的端茶倒水，只是单拆一个自行倒水放水杯的行动就涉及这么多行动。

那么再想想端茶倒水，拆解成多个任务：水温多少？容量多少？杯子的重量是否会有变化？端给谁？从何处补充茶水？如果涉及到泡茶，那就更多任务了，茶叶和热水的配比是多少？需要洗茶吗？变量太多了。

前后空翻，看似很难，但始终只有机器人前后翻跳的变动设置，它没有换皮，也不需要展示翅膀，完全可以提前建模和最优轨迹，类似演员演戏，按照剧本走。

如果拿人端茶、机器人端茶、后空翻对比：

任务目标：机器人空翻是确定性高、预设轨迹；机器人端茶倒水属于高度不确定、实时变化；人端茶送水就属于根据预判，灵活调整。

控制精度：机器人空翻的误差可以控制在0.1度以及1cm，甚至更小；机器人端茶送水，前进的步长以及配速需要调试，否则杯中水会洒出来；相比机器人，人端茶送水，可以自我调速，不让水洒出来。

感知系统：机器人空翻和端水问题是各项功能单一，精度高，视觉、力觉和触觉暂未获得完全融合；相比机器人，人是全方位感知，神经反馈密集。

执行结构：机器人和人的不同是，一个刚性一个柔性关节，缺少了人的柔性关节，在抓握控制时，精准控制比较难。

学习方式：机器人学习动作不是RL学习（疯狂版），就是在新场景中泛化能力降低；人学技能，第一次上手后续就自力更生。

准确来说，人觉得很简单的事，给机器人来干就是千斤难顶的理，来自莫拉维克悖论。

Computers excel at solving logical reasoning tasks that humans find challenging, yet struggle with perceptual and motor tasks that seem simple to humans.
计算机擅长解决人类认为困难的逻辑问题，却难以完成人类觉得简单的感知和操作任务。

好在反直觉的事情，正在一点点变成现实。

如果想要加强机器人的端茶送水问题，可以参考以下研究，进行下一步迭代：

感知控制，NeurIPS的MyoChallenge竞赛S2，59个队伍提交500份方案，基于Myosuite框架，比较了机器人操作任务（63 自由度手臂）与移动任务（80 自由度腿部）的难度差异，指出操作任务对感知和控制的要求更高。

MyoChallenge 2023: Towards Human-Level Dexterity and Agility

为什么机器人能完成普通人做不了的空翻这种高难度动作，却做不了普通人都能做的稳定的端茶倒水？