宇树和智元爆火背后:人类是如何给机器人注入灵魂的锦囊专家官网

而就在前天( 3 月 11 日 ),“ 华为天才少年 ” 稚晖君所创立的创业企业智元机器人发布了基于 GO-1 具身智能大模型的智元机器人灵犀 X2 。

灵犀 X2 给我们展现了它行走、小跑、骑自行车、溜滑板、缝线、语音聊天、俏皮的小动作等等生动的行为。

你可能会发现,最近两年人形机器人的发展速度变得很快,机器人越来越像一个有灵魂的 “ 人 ”。

那么,一个有趣的问题来了:人类是如何给机器人 “ 注入灵魂 ” 的呢?

首先,我们要先明白 “ 机器人为什么不会摔倒 ”,明白了这一点,你就知道了机器人是如何运动的。

秘诀在于: 大扭矩和平衡术。

机器人的运动,最简单的方式,可以分解为本体运动和肢体运动。

肢体运动包括身体各个关节的旋转、肢体的伸缩等,这就相当于将肢体运动分解为了旋转运动和直线运动。

而直线运动,是可以通过旋转运动来表达的,比如拧螺丝,就是通过旋转运动达成了直线运动。

所以,你可以把机器人一切的运动都看作是一系列旋转运动组成的,而达成这些旋转运动,通过电机就可以实现。

而这之中,又有一个比较关键的点:在机械臂的工作使用中,通常需要有足够大的扭矩, 尤其对人形机器人来说,大扭矩的意义特别广泛。

有了大扭矩,机械臂可以施加更强的力,用于举起重物,也能在承载重物时保持稳定,抗干扰能力加强,比如搬运机器人。

由于转速降低( 功率=扭矩*转速,功率相同时扭矩越大转速越低 ),可以精准控制旋转角,从而进行精密操作,同时能够克服组织阻力,比如精密手术机器人。

而最重要的一点是, 对于行走、爬坡或跨越障碍,大扭矩意味着机器人能够克服地面摩擦、重力和其他阻力,确保稳定的运动。

有了大扭矩这个先决条件,接下来就是平衡术。

本体运动可以理解为是机器人通过肢体运动与环境交互( 比如摩擦、推力等 ) 实现的质心的平移、旋转运动,从而达到包括行走、跑动甚至后空翻等目的。

这个过程,其实很像一个倒立的钟摆向前方一 “ 甩 ” 一 “ 甩 ” 地摆动。

没错, 在机器人动力学中,确实也会将人形机器人简化为一个线性倒立摆模型,即著名的 LIPM 模型 ,它能很好地抓住人形机器人运动的基本规律。

在这个模型中,假设机器人所有重量集中在一个质心点上,用无质量的杆撑在地面上,在行走时保持质心高度不变。

这时,在地面上存在一个点, 围绕这个点可以计算出所有水平方向的力矩之和为零,称之为零力矩点,即 ZMP ( Zero Moment Point ) 。

零力矩点说明机器人不会围绕这个点上的平行于这个平面的轴旋转。( 可以理解为不会旋转着摔倒在地 )

如果你觉得这样理解太抽象,你可以看看花滑运动员,他们的身体如果围绕身体竖直方向的力矩之和是不为零的,那么其就会开始旋转。

大概理解了什么是 ZMP 之后,我可以告诉你一个公式,这个公式就是机器人行走时的 “ 倒立摆 ” 公式:

你不需要理解这个东西,你只需要知道我们把 “ 行走 ” 这件事转化成了一个方程,想要走好路,我们要做的就是解方程。

不过,LIPM 模型很简单,他是一个比较理想的模型,生活中很难有完全近似于这个简单模型的运动。比如机器人的速度变化过大,质心变化过大( 比如乱蹦乱跳或跳舞 ),或质心不稳定( 比如抓握物品或身上挂着不稳定的器件 ),都会让实际情况脱离模型,带来很大的平衡难题。

所以,你会看到早期的机器人都用小碎步行走 ,这样可以保持更加平稳的速度以及更小的加速度,从而偏移程度小,更容易保持平衡。 而机器人用弯曲的膝盖行走,可以让质心保持在相同高度,更加适配这个极简的模型,也就避免了更多复杂因素的引入。

从以上讨论中,我们也可以对运动有一个新的认识角度。

行走并不是时刻保持着平衡状态,而是不断处于一只脚制造失衡而另一只脚消除失衡的动态平衡过程,从而推动机器人前进。

LIPM 模型讨论的是对机器人运动的限制因素,但在实际运动中,机器人当然并不是按照方程完全被动地行走的,而是先规划一个参考 ZMP 的路线,再按照计算的质心位置和加速度实际去行走,确保在这过程中,实际的 ZMP 与参考 ZMP 尽可能重合,从而保持平衡。

而‍机器人要在任意时刻保持平衡,就需要保持 ZMP ‍点( 上图机器人身体下方标记的一个点 )位于支撑多边形内。支撑多边形可以简单理解为上图机器人的接触地面的脚围成的多边形。

这太复杂了,看到这里你可能快要晕了,不过没关系,机器自己也不理解,所以,注入灵魂的步骤开始了: 我们试图让机器自己学会理解如何去走路、做动作。

行走、奔跑等基本的运动行为一般是通过经典 AI 算法强化学习训练得到的,早年一直不用 AI 技术、成本降不下来的波士顿动力现在也在用强化学习来训练 Spot 机器人和 Atlas 机器人。

强化学习的原理大致是,比如 机器人在行走时,如果采用了正确的步伐或者没有摔倒,就提供奖励,如果采用了错误的步伐或者摔倒了,就进行惩罚。 这在游戏的语境中很容易理解,吃豆人吃到豆子了就有奖励,被幽灵抓住了就有惩罚。

同样,机器人接收到奖励信号,就会强化当前的行为,接收到惩罚信号,就会弱化当前行为。

强化学习基本是机器人学习的底层配置了,但它也有非常大的缺点。

机器人又有太多的方式或动作来完成同一个任务,也就是动作空间太大。

这就像是在一个非常庞大地图的开放式游戏中,没有特定的任务指引,只能靠一点一点的摸索来获取反馈,这样固然有非常大的创新自由度,比如AlphaGo能够采用人类意想不到的方式来走棋。

他的弊端是资源消耗特别大, 而且也有可能让机器人用意想不到的方式获取奖励。

比如灵犀 X2 机器人训练时会有 “ 抽象 ” 的行走方式,这些方式能够满足 “ 前进 ” 这一目标,但显然不是我们想要的行为,这种现象通常被称为 “ reward hacking ”。

如今,人形机器人有一个发展趋势就是自由度越来越大,比如手指数量和关节数量越来越多,对于具有越来越多自由度的人形机器人,每个状态下可以采取的动作数量呈指数级增长。

下图所示的很古早的本田机器人有 30 个自由度 ( DOF ),每个自由度都需要在每个时刻发出命令。即使每个 DOF 的命令只有三个可能的值( 例如前进、后退和无 ),但在每个状态下都可以采取 3^30 种不同动作的组合。

这就让机器人采用错误行为的概率( 即便能够达到相同目标 )极大。

于是,人们提出了 “ 模仿学习 ” 这一概念来弥补不足,它让机器人通过观察其它机器人或人类的动作来学习,这样就把动作到任务目标的路径都规划好了,甚至不需要设置奖励。

模仿学习极大缩小了动作空间,并避免了无效的探索。

这相当于把原来开放性极大的强化学习,改造成了一个类似图像识别的监督学习算法。甚至跳舞、打乒乓球等更加具备人类特性的行为也是通过模仿学习实现的。

但,模仿学习也会遇到一个核心问题。

Agent 在学习时直接模仿了专家提供的动作,而不管交互的最终结果,就好像一个学徒只按照师傅提供的简单场景来开车,一般只需要按部就班地操作就行,一旦在现实中实操,就容易出错。

人们也尝试了不同的解决方法,比如,交互式模仿学习。Agent在测试时如果出错了或遇到了学习范围以外的场景,会向人类专家询问,然后人类专家使用准确的动作重新标记 Agent 收集的数据。

到这里,你应该能明白,数据,是一个非常重要的点。

从过去一年的进展看来, 智元机器人可能就是希望用模仿学习结合超大规模数据把 “ 通用 ” 一路走到黑。

首先是做了 AgiBot World,一个百万级的机器人真机实操数据集,主打专业性。

它包含的基础动作多,比如抓取、放置、推、拉等基础操作,以及搅拌、折叠、熨烫等复杂动作;场景又多样,覆盖家居、餐饮、工业、商超、办公;数据模态丰富,360 度无死角视觉感知,以及六维力传感器和高精度触觉传感器的数据,后者对于精准操控的训练必不可少。

在可视化视图下,可以看到机器人所感知的数据形态,其中包含了每时每刻的 360 度 RGB 图像、深度图、以及此时的动作状态。

然后他们还做了 AgiBot Digital World,更大规模的机器人虚拟仿真框架和开源数据集,主打随机性。

首先是保持了接近真机数据的模态丰富性, 然后又能在同样的任务下,生成大量的随机因素。

生成不相关的因素, 目的是为了让神经网络知道,在一个任务下,哪些是相关的,哪些是不相关的,毕竟神经网络过于脆弱敏感,几个意料之外的像素就能让它大吃一惊,忘了自己是谁、来自哪里、要去哪儿。

机器人如果没有接触到这些随机因素,也就缺少了 “ 否定 ” 的能力,加入随机因素能很好解决这个问题。

只是再多的随机化也不能弥合虚拟和现实的差距 ( sim2real gap ) ,现实的复杂性远超我们想象。

怎么弥合这种差距呢?关键在于知识共享。

神经网络的中间层能学习到一个表征空间,表征空间隐含了观察现象背后的底层知识,虽然还不能完全理解它,但将这一层进行共享,就可以将其中的知识技能进行迁移,这一点是在深度学习奠基者Yoshua Bengio很早期的论文 “ Representation Learning: A Review and New Perspectives ” 中就提出来的深刻洞察。

比如在这项研究中,机器人就学习了一种知识共享的方式。

在开药瓶任务中,机器人从人类演示中学习怎么拧瓶盖。

人类动作的触觉数据,通过神经网络转化为表征 A,A 再转化为如何拧瓶盖的高级决策。

对于不同类型的机器人动作的触觉数据,则通过另一个神经网络,映射到 A,这相当于是一个低级动作识别模型。

这样就将机器人的低级动作识别连接到了人类的高级决策,让机器人可以想象自己是人类来学习怎么拧瓶盖。 在实验中,机器人无需训练就能使用这些如何拧瓶盖的高级决策。

人们对这种知识共享的根本理解还处于初步阶段,神经网络还是很神秘,目前其实是从宏观到微观的方式逐步被结构化的,怎么结构化取决于专业领域的特点和你的需求。

但表征空间的共享是一种非常有想象力的方法。

它表明在表征空间内,任意模态的数据都是可以连接的,这就为不同领域的知识迁移和融合提供了桥梁,很自然地也包括不同类型的机器人的技能迁移、通用大语言模型与专用机器人模型的知识融合等。

特别是,一个不成熟的领域的 AI 模型,可以通过成熟的领域的 AI 模型通过很小的训练量就能够得到。

这便是预训练的另一个理解视角。

有研究就表明,在大语言模型的表征空间内,相似的虚拟和现实的机器人操作图像在表征空间中更加靠近( 下图中的绿框和紫框图像 ),而不同的虚拟和现实的机器人操作图像在表征空间中就会离得更加远( 下图中的蓝框和红框图像 )。

所以, 通用大模型更广泛的现实世界知识有望弥合机器人领域依赖虚拟数据造成的虚拟和现实的差距。

比如在智元机器人 GO-1 具身智能大模型中,视觉大语言模型识别视觉输入,然后调用行动规划专家和动作专家来生成下一步动作。

在模型设计中,其核心仍然是知识共享和复用,视觉大语言模型将知识共享给了行动规划专家和动作专家,行动规划专家也将知识共享给了动作专家。

模仿学习结合超大数据集是一条极简而有效的道路,不能证明是最优的,但确实潜力极大,或许有望复刻机器人领域的 ChatGPT 时刻。

总之, 简单来说,大模型的突破,大概率会带来人形机器人的突破,做 AI,就是在做机器人的灵魂。

THE END
0.宇树开源,再次驱动了人形机器人的发展事实上,早在宇树开源之前,傅利叶早在今年的4月份就发布了首款开源人形机器人Fourier N1。随后,在2025开放原子开源生态大会上,深开鸿CEO王成录博士宣布,M-Robots开源项目正式启动。而在今年8月份的世界机器人大会上,阿里达摩院宣布开源其自研的 VLA(视觉-语言-动作) 模型RynnVLA-001-7B、世界理解模型RynnEC、以及机jvzquC41yy}/lrfpuj{/exr1r1kf7;=d98g6ho
1.对话宇树科技王兴兴,造出9.9万元人形机器人的90后偏才这一次,宇树把人形机器人的入门价降到 9.9 万元人民币,便宜了超 80%,再一次成为人形机器人领域的热门话题。 过去一年,借着大语言模型浪潮,一批机器人公司发布人形机器人。但没什么公司能把人形机器人当做商品卖出去。 宇树科技是个例外。那个 “简陋” 的人形机器人 H1 被卖给了全球各地的大学、研究机构和 AI jvzquC41zwkrk~3eqo529A;;2694787;23<14B9
2.机器人公司TOP100浮出水面:VC已经撒钱100亿键嘉机器人于2020年9月7日键嘉机器人宣布完成超亿元人民币B轮融资,由高瓴创投、复星医药及老股东BV百度风投共同投资,浩悦资本继续担任本轮融资的独家财务顾问。 智能骨科手术机器人企业键嘉机器人推出了首款国产自主研发的髋关节置换手术机器人,键嘉的ARTHROBOT不仅实现了髋臼侧的精准定位、打磨和假体安装,也覆盖了股骨侧jvzquC41yy}/rnsekntfy|3ep1j05A8390nuou
3.机察室|对话宇树王兴兴:机器人“iPhone时刻”至少还要3年Q:今年国内外很多人形机器人宣布了进厂打工,目前您怎么看这个现象?宇树人形机器人的落地现状和未来规划是怎样的? A:这肯定是一个趋势,埃隆·马斯克最早提出要让人形机器人去他的汽车工厂工作,所以整个行业对于汽车工厂是比较热衷的。我们过去几个月跟比如蔚来的汽车工厂有合作,就部署了我们人形机器人去做现场的搬运,jvzquC41ycv/gjxvoqtf{7hqo1g049762:825:;372659:3jvor
4.对话宇树创始人王兴兴:做机器人,中国缺乏AI人才AI能力不够,限制了机器人的发展 Q:今天向机器人疯狂涌来的关注,背后都带着AI带来机器人进步的判断,但是其实忽视了机器人本身的技术进步,今天宇树在机械和动力等方面的重要突破有哪些? 王兴兴:目前这波机器人浪潮主要源于AI浪潮的推动。大语言模型的出现使信息领域取得了显著进展,实现了对话和语音交互。然而,要真正释jvzq<84yyy4ckjsgyu4dqv4pgyy0fnyckny@kmB3;4>38
5.宇树科技王兴兴:AI大语言模型写代码成功率已非常高,大部分软件可00:01:16 人形机器人大规模应用还要十年甚至 00:00:49 这个会“读心术”的AI录音笔、帮 00:01:27 宇树科技新一代机器人,好家伙跳舞 1 2 3 热门视频 1. 9,440 小哥送完外卖站路边 2. 8,312 河北承德一村庄突遭 3. 4,996 女子切5斤五花肉后进 4. 2,392 15岁女孩玩jvzquC41xkjfq7xkpc4dqv3ep1v0hrscpek04977/2=.4@4fgvgjn6nphj}ut€;3427277i0jvsm
6.宇树CEO对“具身智能”和“人形机器人”未来的设想2024 年8 月,“2024 世界机器人大会”在京举行,期间举办了系列论坛,在8 月24 日下午的技术论坛上,主要话题是“人形机器人”,宇树科技CEO 兼CTO 王兴兴做了报告,题目是:“具身智能”指明了实现AGI的方向。 本文引用地址: 王兴兴 宇树科技CEO兼CTO 王兴兴首先向来参会的美国AI 研究所执行主任、波士顿动力公司创始人jvzq<84hkpgoen3ukpg/exr0ep5uglm1tqrm1;546/73/;71fqi.kwjcksns5?68:8>/uqyon
7.对话宇树科技揭秘春晚扭秧歌机器人的秘密武器:AI驱动运动控制红星资本局1月29日消息,“起猛了,在春晚居然能看见机器人扭秧歌?”在今年的春晚现场,来自宇树科技的人形机器人H1闪亮登场。在张艺谋导演的《秧BOT》中跳起了AI机器秧歌。这些机器人穿着大花袄,还会舞动身体,多角度转手绢。 1月29日,红星资本局从宇树科技了解到,这是人类历史上首次大型全AI驱动的全自动集群人形机jvzquC41yy}/uqz|ks{tjr3eqo5og€68;:630qyon
8.人陈立预测:三十年后,结婚“三大件”可能是算力、算法、机器人IT之家 10 月 22 日消息,宇树科技联合创始人陈立 10 月 18 日在清华大学举办的有为青年公开课上发表演讲。 陈立在演讲中表示,当前具身智能机器人有点像 GPT 发布之前 1~3 年的阶段,即将爆发,但尚未爆发,处于前夜。在他看来,AI、人形机器人、具身智能、大语言模型是当下最热的,也是未来最重要的一个发展方jvzq<84pgyy/39osmc4dqv3ep1814>62445d8@6;59=1:7xjvor
9.从1.5米/秒到到3.3米/秒!宇树H1人形机器人创下速度纪录,掀起Chat此外,宇树科技的研发工程师强调,要让双足人形机器人真正融入工厂和普通家庭,就必须解决其通用性问题并提升智能化水平。目前,人形机器人的智能化技术主要集中在机器视觉、语音识别和自然语言处理等方面。虽然这些技术能够完成简单的命令,但在语意理解和逻辑理解方面仍有待提高。 jvzquC41yy}/zrfplkiikwf0eqs0uyjekcr0fnyckne66;=;50nuou
10.国内机器人公司宇树科技在其官方公众号推送了一篇名为《UnitreeG不久前,国内机器人公司宇树科技在其官方公众号推送了一篇名为《Unitree G1 人形智能体 AI化身 ¥9.9万元起》的文章,宣布其推出了一款9.9万的人形智能机器人。十万不到的价格,瞬间让人有一种科幻马上就要照进现实的既视感。 尽管2024年的进度条走了还不到一半,但有关人形机器人的炸场消息却是接连不断。 先是英伟达CEO jvzquC41zwkrk~3eqo537B;3888:;87;32:25<;
11.古月居本文详细介绍了如何在Ubuntu 20.04系统上使用Gazebo搭建宇树机器狗Go2的仿真环境,包括ROS安装、依赖配置、工作空间创建、功能包获取与编译,以及仿真启动和控制操作。 研语 13 10566 宇树机器狗Go2 宇树机器狗go2 gazebo仿真环境 ROS 编程入门 2.1 创建 ROS 功能包 ROS(Robot Operating System)是一种开源的机器人软件jvzquC41yy}/i~~wgjung7hqo1
12.宇树机器人行业现状怎么样(2025年上半年上市公司财报对比)根据南方财富网概念查询工具数据统计,A股54家宇树机器人相关上市公司已发布2025年上半年财报。2025年上半年大家都过得怎么样?一起来看看吧。 宇树机器人主要上市公司 卧龙电驱(600580):2025年第二季度季报显示,卧龙电驱公司营业总收入同比增长-5.78%至39.92亿元;净利润为2.69亿,同比增长58.1%,毛利润为10.63亿,毛利率jvzq<84yyy4tq~yjoqtf{7hqo1mvrrfq1irh1;5473708:<889<70qyon