封面图

最近具身智能(机器人)圈出现了一个非常有意思的现象:无论是估值几十亿美金的当红炸子鸡创业公司,还是英伟达这样的芯片帝国,大家都在疯狂地把耗费巨资训练出来的机器人“大脑”(基础模型)拿出来,免费给全世界用。

这群最聪明、最精明的人,难道突然集体做起了慈善?

表面上看,这只是一场“开源”与“闭源”的技术路线之争;但扒开底层逻辑,这是一场你死我活的生态圈地运动,所有人都在争夺定义机器人行业基础设施的权力。

在这个大棋局里,不仅有技术极客的理想主义,更有极其高明的商业阳谋。

一、 逃离大厂的“复仇者联盟”与四大门派

要看懂目前的局势,得先认清牌桌上的玩家。如今的机器人开源基础模型(VLA模型)江湖,大致分为四股力量:

  1. 学院派: 以OpenVLA、Octo为代表。主打参数小、够轻量,“以小博大”。
  2. 巨头生态派: 以英伟达(GROOT)和谷歌为代表。不仅做模型,还疯狂送配套工具链。
  3. 中国力量与创业公司: 像小米、蚂蚁,以及硅谷的OpenMind,试图打破各家硬件封闭的孤岛。
  4. 技术极致派: 比如最近火出圈的Physical Intelligence(简称π0),追求极端的精度和连续控制能力。

这里面最有戏剧性的是,如今扛起开源大旗的核心骨干,几乎全是当年在谷歌主导“闭源”模型的大佬。

比如著名的Chelsea Finn教授、强化学习大牛Sergey Levine,以及多位曾深度参与谷歌RT系列(标杆级闭源机器人模型)研发的顶尖科学家。他们在谷歌摸爬滚打后,陆陆续续选择了离开,要么回到学术界搞开源,要么拉起队伍创办了Physical Intelligence。

他们太清楚闭源的局限性了。在机器人这个极度碎片化、极度依赖物理世界交互的领域,想要靠一家公司“闭门造车”统霸天下,几乎是不可能的。于是,这群人被业界戏称为机器人领域的“复仇者联盟”,他们联手砸开了闭源的围墙。

二、 估值56亿却免费送技术?揭秘开源的“真”与“假”

既然是为了抢生态,那开源的动作里就藏着不少“心机”。

以刚才提到的Physical Intelligence为例。这家公司成立才一年,最新一轮融资直接拿了6亿美元,估值冲到56亿美元。投资人名单里赫然写着Jeff Bezos和OpenAI。

一家如此烧钱、估值如此之高的商业公司,二话不说把最核心的$\pi_0$模型开源了。真的是大公无私吗?

不,这是一种精心设计的“开源引流、闭源变现”策略。

仔细拆解你会发现,$\pi_0$开源了模型权重和推理代码,但完整的训练管线(Pipeline)和内部采集的数万小时独家数据,并没有公开。

这招极其聪明:

  • 第一步,建立标准。 把模型免费放出去,只要全世界的实验室、开发者和工业客户都在用你的框架,你就成了“事实标准”的定义者。
  • 第二步,白嫖全球测试员。 硬件机器人的长尾问题太多了。开源后,无数开发者会拿着$\pi_0$去各种千奇百怪的环境里跑测试、抓Bug、做微调。这些反馈和新数据最终会回流,让下一代模型变得更强。
  • 第三步,卡住身位。 对于真正有商业落地需求的大客户,开源版本不够用怎么办?对不起,得花钱买定制服务。

同样玩“心机”的还有英伟达。黄仁勋在台上大喊GROOT模型是开放的,连仿真平台、生成数据的工具全套送你。但猫腻在于——这一整套流程,深度绑定了英伟达的硬件生态。 离开它的算力集群、离开它的特定芯片,这套开源系统根本跑不起来。

所谓的开源,在商业巨头手里,早已变成了一种降维打击的获客漏斗和生态枷锁。

三、 散兵游勇凭什么硬刚马斯克?

就算开源套路深,但不得不承认,开源社区正在以不可思议的速度追平甚至超越巨头。

按照常理,马斯克的特斯拉有自己的工厂、自己的擎天柱机器人、自己的数据闭环;谷歌有地表最强的算力和顶尖天才。开源社区这帮“散兵游勇”凭什么跟他们掰手腕?

答案是:数据+工具+模型的“组合拳”。

1. 数据多样性,碾压单一规模 特斯拉的数据量确实大,但全是“擎天柱”在特定工厂里的数据。而开源社区搞出了一个叫 Open X-Embodiment 的跨平台数据集。 这玩意儿简直是作弊器。它汇聚了全球20多个顶尖实验室的数据,涵盖了22种完全不同的机器人(从单臂到双臂,从机械狗到人形),在厨房、实验室、仓库等各种杂乱场景下执行了500多种任务。

事实证明,在具身智能领域,见过世面的“杂家”,比只在温室里死磕的“专家”泛化能力强得多。 用这套开源数据训练出来的模型,到了新环境里的成功率,甚至能逆袭反超大厂的闭源模型。

2. 把造机器人的门槛打到“骨折” 光有数据不行,以前跑通一套机器人的仿真和训练,需要极高的工程门槛。现在,Hugging Face这样的平台下场了,推出了LeRobot等工具链。

  • 硬件上: 他们开源了只要100美元成本的机械臂图纸,谁都能在家用3D打印机搓一个出来。
  • 算力上: 以前需要大公司级算力才能跑的仿真训练,现在经过开源工具的极致优化(比如Genesis引擎),在一张家用RTX 4090显卡上跑1小时,就相当于在真实世界训练了49年。

这才是开源生态最恐怖的地方:它硬生生把搞机器人的入场券,从几百万美金,砍到了几百美金。

四、 终局:不仅是技术,更是信任

大语言模型(如ChatGPT)的发展史告诉我们,行业初期总是开源百花齐放,最后不可避免地走向头部闭源的寡头垄断。机器人行业也会重演这个剧本吗?

不一定。因为物理世界的AI,容错率极低。

聊天机器人胡说八道,顶多是有点尴尬;但如果一个力大无穷的人形机器人在你家里做饭时系统抽风,那可是会搞出人命的。

面对这种能直接干预现实世界的强大力量,人们很难去完全信任一个藏在黑盒里的闭源商业系统。未来的机器人底层控制逻辑,可能必须像以太坊的