本文作者:访客

机器人的最后一公里,灵巧手技术挑战与六大门派探讨

访客 2025-09-30 15:00:33 68897 抢沙发
本文主要探讨了机器人的“最后一公里”问题,聚焦于灵巧手所面临的“不可能三角”挑战,即实现抓取、操作和交互三大功能的难题,文章还介绍了六大技术门派在解决这一问题上的不同策略和方法,这些技术包括传感器技术、人工智能算法等,共同推动着机器人技术的不断进步。

文|硅谷101

大家觉得让机器人学会走路难,还是让它学会打开一听可乐难?我猜大部分人都会说走路难吧,毕竟人类花了几百万年才学会直立行走,波士顿动力的机器人摔了无数次才学会后空翻。

但我最近在调查的时候,才发现一个完全颠覆我认知的事实:在机器人世界里,开可乐这件事比走路可难太多了!也就是说,控制灵巧手要比控制躯体难上至少十倍,而从目前的售价对比上我们也能感受到:中国Unitree G1人形机器人(会走路):1.6万美元;

波士顿动力Atlas机器人(会后空翻):预估14万美元;

英国Shadow Robot的灵巧手(会拧瓶盖):价格未公开,但业内估计超过10万美元

也就是说:一只手的价格接近一个完整的顶级机器人!这是什么概念?这好比一个方向盘的价格接近整辆特斯拉。所以机器人的灵巧手为什么难做?目前技术发展到什么阶段了?业内的技术派系有哪些、有什么值得关注的公司?

今天我们就来聊聊,这个让全世界顶级机器人工程师都头疼的终极难题——机器人灵巧手。以及我们与特斯拉前灵巧手负责人创业的团队TetherIA一起聊聊,一个300多美元的“Android版机器人灵巧手”如何试图颠覆这个被垄断了30年的高端市场。

01 机器人的“最后一公里”

为什么我们能看到机器人在工厂里分拣产品,在仓库里搬运货物,但却很少看到它们能像人一样灵活地拧开可乐瓶盖,或者精准地拿起一颗螺丝钉?答案就在于:手的复杂性远超我们的想象。

人类的手有27个自由度,包含27块骨头、29个关节、34块肌肉,以及数不清的神经末梢——这是一个经过了数百万年进化的“精密仪器”。更神奇的是,这个“仪器”让我们能够既有力量握紧工具,又有精度穿针引线。这样的能力造就了人类文明,但对机器人来说,要复刻这样的能力,就非常有挑战了。

Xu Dong

TetherIA联合创始人兼CTO

大家看一下人手的构造,就会发现其实人手非常灵活,里面关节非常多。我们以大拇指举例:大拇指从上往下,有IP joint(拇指指间关节)、MCP joint(拇指掌指关节),这两个关节都可以实现屈伸和弯曲。再往下的关节叫CMC joint(拇指腕掌关节),这个关节就明显灵活很多,可以做侧摆动作,也可以做弯曲和伸直动作,甚至还能原地旋转。而且它的运动范围非常大。你会看到,关节之间的连接非常小,这就是为什么人手既能灵活,又能保持非常小的体积的原因。

而这,就是机器人工程师们面临的终极挑战——机器人灵巧手,英文叫Dexterous Hand,在机器人学里,它专门指高度仿人、具有多自由度、能够完成精细操作的机器人手。它能够模拟人手的抓取、操作和感知功能。那什么样的机器人手才能称得上“灵巧”?

第一,它得有足够多的“关节”。我们人手有27个自由度,而机器人灵巧手通常需要6个以上,高端产品能达到20-27个。这就像是给机器人装上了真正能“动手指”的手。

第二,它得有“绣花”般的精细控制。我们说的是毫米级甚至更精细的操作——想象一下用机器人手穿针引线,或者像我们一会儿要看到的那样,精准抓取只有5毫米的M5螺丝钉。

第三,它得有“触觉”。不只是能看到,还要能“感受”。触觉传感器、力觉传感器、位置传感器等等,就像给机器人装上了神经系统,让它知道抓得是轻是重,是软是硬。

第四,它得会“察言观色”。遇到圆的就用一种抓法,遇到方的就换另一种。看到玻璃杯就轻拿轻放,看到铁块就可以用力一些。这就是自适应抓取的能力。

最后,它得长得像人手。人类世界的所有工具都是为人手设计的。如果机器人能够模仿人手的结构、功能和配置,它们就能快速且经济高效地应用,而无需改变我们的环境。

如果我们看看历史会发现,灵巧手从有这个概念,到现在逐步趋向成熟,已经走过了40多年的历程。

1980年代:开山之作

Stanford/JPL Hand开创了灵巧手的先河,3根“人形”手指,每根三个关节,配备触觉/力反馈。但它更像是证明“这事儿能做”的概念机。

1990-2000年代:百家争鸣到夹爪称王

Utah/MIT Hand、DLR Hand等各显神通,技术路线百花齐放,但都停留在实验室:能演示,但离实用还差十万八千里。

就在灵巧手还在实验室“纸上谈兵”时,简单粗暴的两指夹爪已经占领了工厂。虽然只能“抓”和“放”,但便宜、稳定、够用。这就像是功能机时代——虽然简陋,但解决了核心需求。

2000-2010年代:商业化破冰

Shadow Robot、Allegro Hand等陆续商业化,价格高达数万美元,主要服务科研机构。这个阶段就像早期个人电脑——功能有了,但普通人买不起。

2020年代:巨头入场

特斯拉入局改变游戏规则。马斯克不只要做灵巧手,还要规模化生产。同时,GPT等AI大模型的突破为机器人控制打开了新世界的大门。

2025年:转折点

特斯拉22个自由度的新手、TetherIA的300美元开源革命、各路开源项目涌现。灵巧手即将迎来“智能手机时刻”——从极客玩具变成人人可得的工具。

然而,灵巧手虽然迎来了巨大的突破,但还是有很多的难点。这个难点并不仅仅在技术上的突破,更重要的是要兼顾性能,成本还有可靠性,这就成了一个“不可能三角”。

02 灵巧手的“不可能三角”:性能、成本、可靠性

在现场调查中,我才知道一个可能会颠覆很多人认知的观点:灵巧手的控制比整机控制要难10倍!

在TetherIA位于硅谷的办公室,我见到了他们一路以来设计的各种迭代版本,以及他们刚发布上线的这款开源的灵巧手产品Aero Hand Open。

在我自己真正上手尝试去控制灵巧手之前,我都非常不理解,一个完整的人形机器人要平衡、要走路、要导航,怎么可能比一只手还简单呢?但当我自己尝试去控制这只手的时候,发现真是没那么容易。

Xu Dong

TetherIA联合创始人兼CTO

我们觉得这个难点其实是多方面的。因为机器人是一个复杂的系统,现在大家比较关注的是AI控制的层面,主要是VLA模型(Vision-Language-Action 视觉-语言-动作)的泛化能力,这毫无疑问是一个很大的难点。

另外,我们觉得从整个整机系统角度来说,这个手的硬件本身也是很大的一个卡点。人手是非常灵巧的,它的相对尺寸很小,每个关节都很灵活,手指又非常纤细,还能做到速度和力量之间的平衡,并且特别经久耐用。

我们人类主要是靠双手和外界进行接触,但在传统的机器人里,更多的是避免机器人和外界接触,因为一旦接触就是碰撞,对机器人就有损伤,而手恰恰需要和外界接触,所以综合起来,这些都是硬件上的难点。

除了硬件和控制的难点,其实还有很多更不为外行所知的地方。比如,你在控制的同时,希望能够让human-in-the-loop(人机回圈),让人在其中对机器人产生影响和作用,这就牵扯到遥操系统,以及开发过程当中的仿真系统,以及背后整个体系。其实都有很多的困难。

我在操作的过程中感觉到视觉与力量的协作,是非常关键的。由于我是完全感知不到触感和力度,我抓握的完全是空气,只能凭借我的眼睛观察灵巧手与物体的接触反馈来及时调整。这就很像软件驱动灵巧手的过程。

我们知道,人类的抓握过程依赖于神经系统、肌肉控制和多模态感知。

人类抓握力的调整分为两个闭环控制:第一是前馈控制(Feedforward Control),也就是大脑基于视觉和经验,在抓取前预测所需力量。例如,看见一瓶水时,大脑会预估重量,先设定一个初始抓力。

第二个阶段是反馈控制(Feedback Control),在手指接触物体后,实时通过触觉和滑动信息进行调整。如果物体开始滑动,神经系统将在

阅读
分享

发表评论

快捷回复:

验证码

评论列表 (暂无评论,68897人围观)参与讨论

还没有评论,来说两句吧...