可以理解的是,端茶倒水存在变量,前后空翻属于单一属性的单体运动,相比来说更容易实现。
之前我曾经把人和机器人的倒水行动分析一遍:
人:找到饮水机,拧开杯盖,放上杯子,按下出水键,倒到7分满,拿起杯子一饮而尽。
机器人:拿起杯子,并用右手握住杯子,搜寻最近的饮水机,走向饮水机,到达饮水机接水口,用手将杯子放在接水口下方的位置,检查水杯杯口没有超出出水范围,找到饮水机的出水键,用手点击出水键,确认饮水机正在出水,预计15秒后杯中达到7分满的水位,第12秒点击关水键,确认杯内水位为7分满,用手握住杯子,抬起杯子,将水杯移动至指定的桌上,到达桌子的指定杯位,确认水杯放置平稳状态,确认水杯已放置指定范围内。(粗略示意版,实际上还有不少任务
从执行任务来看,人的操作是非常简单,如果对机器人来说,每一个步骤都需要关节力矩以及示教坐标点,而机器人的端茶倒水,只是单拆一个自行倒水放水杯的行动就涉及这么多行动。
那么再想想端茶倒水,拆解成多个任务:水温多少?容量多少?杯子的重量是否会有变化?端给谁?从何处补充茶水?如果涉及到泡茶,那就更多任务了,茶叶和热水的配比是多少?需要洗茶吗?变量太多了。
前后空翻,看似很难,但始终只有机器人前后翻跳的变动设置,它没有换皮,也不需要展示翅膀,完全可以提前建模和最优轨迹,类似演员演戏,按照剧本走。
如果拿人端茶、机器人端茶、后空翻对比:
任务目标:机器人空翻是确定性高、预设轨迹;机器人端茶倒水属于高度不确定、实时变化;人端茶送水就属于根据预判,灵活调整。
控制精度:机器人空翻的误差可以控制在0.1度以及1cm,甚至更小;机器人端茶送水,前进的步长以及配速需要调试,否则杯中水会洒出来;相比机器人,人端茶送水,可以自我调速,不让水洒出来。
感知系统:机器人空翻和端水问题是各项功能单一,精度高,视觉、力觉和触觉暂未获得完全融合;相比机器人,人是全方位感知,神经反馈密集。
执行结构:机器人和人的不同是,一个刚性一个柔性关节,缺少了人的柔性关节,在抓握控制时,精准控制比较难。
学习方式:机器人学习动作不是RL学习(疯狂版),就是在新场景中泛化能力降低;人学技能,第一次上手后续就自力更生。
准确来说,人觉得很简单的事,给机器人来干就是千斤难顶的理,来自莫拉维克悖论。
Computers excel at solving logical reasoning tasks that humans find challenging, yet struggle with perceptual and motor tasks that seem simple to humans.
计算机擅长解决人类认为困难的逻辑问题,却难以完成人类觉得简单的感知和操作任务。
好在反直觉的事情,正在一点点变成现实。
如果想要加强机器人的端茶送水问题,可以参考以下研究,进行下一步迭代:
感知控制,NeurIPS的MyoChallenge竞赛S2,59个队伍提交500份方案,基于Myosuite框架,比较了机器人操作任务(63 自由度手臂)与移动任务(80 自由度腿部)的难度差异,指出操作任务对感知和控制的要求更高。
MyoChallenge 2023: Towards Human-Level Dexterity and Agility

openreview.net/forum?id=3A84lx1JFh#discussion
这篇博客有点意思,说机器人的手就跟打了麻醉的手一样,缺乏人类手部丰富的触觉反馈。
Why Robots Still Cant Match Human Dexterity

imaginepro.ai/blog/2025/7/the-chatgpt-moment-in-robotics-and-beyond
小动物为啥比机器人强?动物的优势源于子系统间的深度整合,并由此提炼出机器人技术需突破的四大根本障碍:能量效率瓶颈、复杂环境泛化、实时决策延迟和多模态控制耦合。
Why animals can outrun robots

doi/10.1126/scirobotics.adi9754


