“VLA是一个像人类司机一样工作的司机大模型。”5月7日晚,理想汽车CEO李想在AI Talk中说道。
这是智能驾驶行业继“端到端”之后,出现的最新技术方向。
VLA(Vision-Language-Action,视觉语言动作)模型,最早由谷歌AI公司Deepmind推出,主要用于机器人领域,随后逐渐成为具身智能领域的主流技术范式与框架,Open AI、字节跳动等公司都在践行这个路线。
与ChatGPT、Sora等注重文本、图像与视频的视觉语言模型(VLM)不同,VLA在前者的基础上,新增了与物理世界交互的“动作”能力。
换句话说,VLA不仅理解周围环境,还能直接输出控制指令,如机器人动作或车辆驾驶决策等。智能驾驶、具身智能两大热门赛道也因此有了更深刻的交汇。
不过,当下VLA的技术实现与工程落地还处于早期。技术创新的迷雾,仍需要在实践中拨开。为此,36氪汽车近期交流了一个拥有智驾技术背景人才创立的具身机器人项目——阿米奥机器人,希望为行业提供更多参考。
阿米奥机器人成立于2024年9月,由小米汽车智驾技术产品负责人刘方成立。今年3月,阿米奥完成了种子轮融资,资方包括安克创新、智谱AI和险峰长青。
刘方曾历经小米自动驾驶团队筹建、技术研发和量产落地的全过程。更早之前,刘方在谷歌中国搜索业务部门履职。
刘方向36氪汽车表示,2023年生成式大模型GPT的出现给从业者带来很多冲击:一是更大的数据量能让更大的模型产生智能;二是大模型本身已经理解了很多人类知识,学习新技能不用只靠模仿,而是通过学习模仿数据背后的知识,来建立对事情的理解。
他比喻道,以前做每个具体的AI场景,就像是在爬一座山,总是碰到困难;但GPT出现后,不用爬山了,而像是海面上的一艘船,当海平面逐步提升,山就被淹没了。
而VLA模型,是能让物理硬件具备真正智能的大模型。刘方认为,如果VLA这条路能跑通,自动驾驶就变成一个低维度的事,成为具身智能大问题里的子问题。
刘方表示,近年来的智能驾驶,本质上是模仿学习,不依赖人工写规则,而是直接让系统学习海量数据,自主找到驾驶规律。但这也伴随着挑战,模仿学习没有办法处理已有数据之外的case。
VLA、强化学习等新技术落地,正在带来新的思路。
例如,VLA(视觉语言动作)模型中的VLM(视觉语言模型),本身就具备了认识世界的能力。“VLM的性能决定VLA超过一半的性能,VLA大部分工作其实就是在VLM上做增强。”刘方表示。
除了具备看图说话、能感知距离之外,VLA更关键的一步,是最后的动作环节。“好比买家具回来组装,首先读一下说明书,看案例,但能不能干得好,还是要实操。”
刘方表示,最后的环节本质上就是trying out(测试)的过程,机器人也会在最后的实操阶段做强化学习。
强化学习是一种AI训练的奖励机制与策略,如果智驾系统开对了就给“糖”,开的不好就挨罚。
不过刘方表示,自动驾驶跟机器人的强化学习最大差别是,竞争博弈问题。“机器人不用跟旁边的机器人抢一个杯子,但自动驾驶的强化学习中,还包括对手的反应怎么模仿。”
这最终可能需要一个好的世界模型仿真器才能解决问题。但实际落地过程中,不可能忽然出现一个很好的世界模型来帮助模拟。“只能说,世界模型的一部分模拟先让系统做强化学习、得到提升,然后找到不符合真实的模拟反应,加一些数据加让世界模型变得更好,一步步迭代。我相信世界模型跟驾驶模型一定是绑定在一起迭代的。”
刘方还表示,当下VLA还处于创新迷茫阶段,行业各家的实现路径不尽相同,也还没有达到收敛状态。
基于VLA模型,阿米奥机器人在探索自己的路径。刘方向36氪汽车介绍,公司目前主要聚焦3C消费电子领域的机器人柔性生产。
他告诉36氪汽车,很多电子产品生命周期并不长,产量小,而自动化产线部署成本高,至少需要两个月时间才能落地,“但一条生产线只生产3-4个月就满足需求了,从成本上来看,3C消费电子的产线自动其实不划算。”
而基于VLA模型,刘方表示能让过往的专用机器人变成通用机器人,学习能力和适应能力很快赶上人类水平。
例如,在工厂的固定工位提供一台机器人软硬件,代替人力三班运作,即便3C产品产线发生柔性变化,通用机器人也能够在类似的通用任务之间无缝切换。
目前,阿米奥机器人与北大搭建了联合实验室,双方在VLA基座模型上开展合作。在模型训练上,阿米奥机器人也能在投资人智谱AI的助力下开展预训练;其次,阿米奥机器人已经在工厂里进行数据采集。
商业进度层面,刘方表示,今年三四季度将有一条大的通用机器人产线整体落地。除了消费电子领域,未来阿米奥机器人还将扩展到服务领域、家庭清洁整理等场景。
以下是36氪汽车与阿米奥创始人刘方的对谈,内容经编辑:
36氪汽车:你们不考虑做汽车领域的机器人产线吗?
刘方:汽车行业的劳动强度和需求确实更大,但本质上不存在通用性需求,它是一个设备智能化的好场景,但不是具身智能的好场景。
一条汽车生产线要用7-9年,至少也要5年。如果有更好的专用设备来解决这个问题,为什么不用专用设备来解决?专用设备比通用设备会更便宜,没有必要用通用化的设备。
36氪汽车:现在机器手臂的供应商你们是自己做还是找外部?
刘方:现在夹具能够解决80%以上的任务,很多产业并不需要灵巧手。灵巧手一是成本吃不消,第二是生命周期,客户要求三班倒、用一年,这至少是7000个小时的寿命需求。我们现在的要求寿命就是8000~1万个小时,夹具可以做到。
36氪汽车:机器人代工的利润不高,你们的商业模型是怎么计算的?
刘方:第一,代工就是把人给替下来,能为客户节省多少钱。第二是机器产能要跟上。从人力成本来看,一个人力一年要10万块钱。
机器人有两部分成本,第一是实体机器人的固定资产,第二还要有算法模型,模型成本前期投入大,后面运转起来就摊薄了。机器人可以三班倒,一个工位可以替换三个人的成本。
36氪汽车:你当时为什么选择了消费电子的产线机器人领域创业,而不是自动驾驶?
刘方:我最早一份工作是在Google就是做language model(大语言模型),2023年初GPT3.5出来后,对我产生了很大冲击。
第一,大数据量会让更大的模型产生智能。用大量数据喂养一个本质上是模仿学习的技术框架,即便没有见过一些case,也能产生智能。
第二,大模型本身理解了很多人类知识。学习新技能不需要只靠模仿,而是通过学习模仿数据背后的知识,来建立对事情的理解。这更靠近AGI,这也是具身智能VLA在做的事。 如果这条路能跑通,自动驾驶就变成一个低维度的事,只是一个大问题的子问题。
36氪汽车:所以VLA在自动驾驶落地是一个相当确定的事?
刘方:VLA在机器人的落地是比较确定的事。雷总(小米CEO雷军)一直讲,应该以高维打低维。站在更高维度,机器人做好了,也能开车,自动驾驶就是很自然的事。
36氪汽车:VLA能解决自动驾驶行业哪些问题?
刘方:两个问题,第一是数据量太大,以前靠写规则覆盖所有case是不可能的。后来大家通过模仿学习,不写规则了,直接通过数据学习的办法让效率变得更高,这是特斯拉去年讲的事情。但还有问题,模仿学习没有办法处理数据之外的case。这也是VLA能够提供的最大帮助。
36氪汽车:强化学习能解决问题吗?
刘方:我们的方法是在VLA上做强化学习。强化学习跟人一样,人通常先学习基础能力:看图说话、知道距离。其次是知道动作怎么做,这个要实操。比如买家具回来组装,首先要读一下说明书,看案例,但能不能干得好,还是要实操。这一步本质上就是trying out的过程,我们只在最后实操阶段做强化学习。
因为机器人没有大的模拟环境去模拟交互,只能在实际中能做大量试验。且机器人直接学习和尝试的时间、次数是有限的,所以机器人不可能从0开始强化。VLA大致的学习逻辑和方向是对的,中间做不好的事情,最后靠强化学习来做。我们管这个叫残差强化学习,学习VLA模型和实际环境之间的偏差,而不是全部环节都上强化学习。
36氪汽车:自动驾驶用强化学习难吗?
刘方:其实更难。自动驾驶跟机器人最大的差别是,存在竞争博弈问题。机器人不用跟旁边的机器人抢一个杯子,但自动驾驶的强化学习中,还包括对手的反应怎么模仿。
要么在真实环境采集,但有些数据本来就很难采;要么在模拟环境中生成对手的反应,但生成数据,也不一定真的就覆盖了训练所需要的数据分布,探索空间不够大的时候,强化学习也不会产生实际效果。
36氪汽车:那怎么解决?世界模型有用吗?
刘方:如果仿真能力很强,世界模型里不同对象的反应模仿做的很好的话,其实就不存在out of distribution(OOD,指的是当一个模型被训练在特定的数据分布上时,它在处理与训练数据不同的数据分布时的性能可能会变差)的问题了。
这是个逻辑上的悖论,我一直没有想明白,这可能是个一步步往上迭代的过程。不可能忽然出现一个很好的世界模型来帮助模拟。只能说,世界模型的一部分模拟让系统做强化学习,得到提升,然后找到不符合真实的模拟反应,加一些数据加让世界模型变得更好,一步步迭代。我相信世界模型跟驾驶模型一定是绑定在一起迭代的。
36氪汽车:最近理想汽车说VLA进入无人区了,你认同吗?
刘方:创新不容易,VLA确实还是个迷茫的状态,大家有不同的路径和实现方式。比如Pi Robotics的方案跟Facebook、Google、字节、和我们的方案都不一样。
虽然都是VLA,但大家在各种细节、算法设计、数据使用上都不一样。机器人VLA还没有达到收敛状态,是因为还没有人做出一个百分百靠谱的东西。
不像自动驾驶,特斯拉已经做出标杆且被产品化了。机器人迄今为止还没有,但这也是创业者的机会。
36氪汽车:这与机器人的落地场景很多有关吗?
刘方:因为VLA还没有收敛,没有放之四海皆准的经验。我们的经验是,VLM的性能决定VLA超过一半的性能,VLA大部分工作就是在VLM上做增强。
同时VLM的空间能力、空间之后的语义理解能力很差,就是说,它不知道图像里的东西在3D空间的位置是怎样的,也不能知道两个物体的3D对应关系是怎样的。我们希望通过3D增强的方式来强化VLM的感知能力。
然后还要把对动作的理解能力加回来,我们是通过生成式的模型来解决问题。以前做language model要做很多中间步骤,但GPT3.5告诉你干脆就不用做,直接生成。这跟物理学家费曼的观点一样,“只有我创造的,才是我能理解的东西”。
36氪汽车:VLA的底层技术有什么变化吗?现在还是transformer的范式。
刘方:短期内可能看不太到。但最近自回归学习和生成式模型发展比较快,这可能对模型性能有蛮大提升。
36氪汽车:你觉得AGI时代的终端会是什么?
刘方:我觉得功能型产品会更加直接和直观一些,能干活的机器人是我想做的事。情感陪伴型、游戏型、玩具型我其实不太能够理解,我只能干自己看得懂的事。