逛完世界机器人大会,投资人说再也不想投人形机器人了
“人形机器人目前既不够有用,又拉不开差距”,一位投资人表示。
过去一周,我们仿佛能在世界机器人大会上看到全世界的机器人,600余件相关展品几乎覆盖了机器人的各条产业链。
机器人类型也多得令人眼花缭乱,比如“上蹿下跳”的机器狗、整齐划一“摇曳”的机械臂,还有可以做到不把酒撒出来的“送餐小能手”等。
不论是机器人数量还是参展热度,人形机器人都堪称“C位”。据官方表示,这是人形机器人数量最多的一届大会,而现场几乎一半的观众都集中在人形机器人公司的展台。
这些人形机器人高矮胖瘦各不相同:从仅有110cm的加速进化“小巧”型BoosterT1,到足有185cm的“壮汉”型青龙机器人一应俱全。每一家机器人的机械臂形态、电池位置,脸部造型,乃至移动方式都风格各异,但他们都在卖力地表演着“绝技”。
论武,它们能打咏春、拳击、跳“海草舞”,甚至能在有钢管的地上跑步飘逸;论文,它们会写毛笔字,还能做菜、洗衣、叠衣。在多个展台上,机器人们显得一派绝活学尽,就等着进厂打工或是去客户家服务的高昂姿态。
但一位长期关注人形机器人赛道的投资人逛完展会后,却对腾讯科技表示:“我一个也不想投了”。
他们目前既不够有用,又拉不开差距。
比如,工业场景人形机器人,主要任务是做拣选和小范围的搬运、挪动,但现有的传统自动化机器人已经有很成熟的方案,再做人形机器人意义不大。而聚焦家用场景的人形机器人主要任务就是烹饪、叠衣服、炒菜,虽然各家机器人在这类场景的完成度有差异,但投资人表示,“你能做到的对手也能做到,并不存在不可逾越的差距,只是时间问题而已”。
经腾讯科技不完全统计,此次大会一共有28家人形机器人公司参展,各家公司产品的服务场景除了科研之外,多数都集中在工业或家用场景。
从腾讯科技的统计可以看到,这些机器人的机械性能差异不小,比如自由度、峰值扭矩等指标,最多能有5倍差距;单拿移动速度来看,最快的一级能达到7km/h以上,慢的却只能做到2.5km/h。但在软件基础——大模型层面上,各家却很难拉开大的差距。
而这本应是今年人形机器人的最大亮点。
因为比起特定应用的工业机器人,“人形”这类型的机器人设计其实并不高效。它最大的优势就在于更能实现在人类社会中的“通用”,即人类不需要为了方便机器人的运转而特意改造环境,人类的双手能够着、双腿能抵达的地方,人形机器人也可以。
而实现“通用”的关键就在于有足够强的通用模型。
对这位投资人来说,展会内软件突破有限的人形机器人已让他感到审美疲劳。“现在能让我眼前一亮的,大概是真正拥有泛化能力的机器人”,比如一个会拖地的家庭服务机器人,可以不用主人发号指令,就能自己想到主动去房间铺个床,干个活。腾讯科技沟通了多位关注机器人赛道的投资人,他们普遍认为,做人形机器人,硬件本体并不存在真正意义上的壁垒,软件才是难题,因为它决定着人形机器人的泛化能力,只有拥有强大的泛化能力,人形机器人才能在多种任务场景中工作,才能更接近“通用性”。
但通往AGI是一个美好的理想,除了要奔向远方,也要结合当下的技术条件循序渐进。
虽然今年的人形机器人赛道让VC们略感失望,但和往年相比,我们发现这个赛道其实也有一些值得关注的新变化。
人形机器人的“表情包”执念?
如果未来人形机器人想要实现真正意义上的情感陪伴,它的“脸”和“表情”会变得极为重要。
日本机器人学者、ATR石黑浩特别研究室室长石黑浩认为,“随着我们接触到越来越多的机器人,我们可能会逐渐接受栩栩如生的机器人,并在未来依靠它们来满足我们的护理和其他需求。”
海银资本创始人王煜全也有类似观点,他曾对腾讯科技表示,机器人没有必要像人一样拥有双足,但它们可以像人一样拥有一张能做表情的“脸”,具备这项能力,机器人可以更好地胜任迎宾接待、陪伴这类需要与人类交流的工作。
关于人形机器人做不做“表情”,有两个派别:“抽象派”和“仿生派”,前者主张用抽象的符号传递表情,以表达情感交流,后者主张将脸做得无限逼近真人,希望能和人类一样,可以通过调动“肌肉”的力量驱动面部表情。
在WRC2024上,我们观察到,除了主流的“抽象派”,更多的“仿生派”开始入场,并且这类机器人可以做各种“表情包”。
典型的代表是国内仿生机器人公司EX集团,EX集团去年将“李白”、“杜甫”带到世界机器人大会,今年又做出来“苏轼”。
此外,和去年相比,今年又多出一家做表情的机器人公司“数字华夏”,它的人形机器人“夏澜”在现场和观众做起了互动:
除此之外,也有很多产品并不讲究把“表情”做得多么细致,有的压根连“脸”都没有,还有部分做了“脸”的公司则选择了笼统的“头盔”样式。
仔细留意会发现,不论是国外波士顿动力电动Atlas、马斯克的OptimusGen2、Figure01,还是国内智元新上的“远征A2”、宇树公布的新品“G1”、优必选会进厂打工的“WalkerS”等,它们都顶着一张相似的“钢铁”面庞。
这些人形机器人面部材质几乎都使用黑色的玻璃面罩,用LED镶边,宇数创始人王兴兴在WRC2024之前的交流会上表示,“我对G1的头部设计很满意,短时间内不会改变”。
或许其中一个原因是,这类面部本身就是一个屏幕,上面可以出现任何抽象符号,方便组成表情,向人类传递情感。比如,Figure01或Figure02在说话的时候,面部会呈现OpenAI的标志性符号,虽然算不上真正的表情,但也让和它交流的人类感受到“你正在认真听我讲话”。
其实,回溯人形机器人“鼻祖”——第一版波士顿动力机器人“液压”Atlas的外貌,你会发现,它连基本的“脸”都不存在,更谈不上有表情,它的面部看上去有点“糊弄”,只用了几根略粗的钢管和带有两个孔的器件,简陋地搭建了一张Atlas的脸。
这可能源于波士顿动力创始人MarcRaiber的一段信念,他曾在接受访谈的时候表示,“能力、灵巧、感知和智力才是机器人的关键功能,其它的都不重要。”
直到2021年,一则液压Atlas舞蹈视频“DoYouLoveMe”爆红,MarcRaiber才开始认可“仿生”对于人形机器人与人类情感交流的重要性,或许正是这一段渊源,2024年的电动Atlas才拥有了一张“头盔式”面庞。
这类头盔式脸庞在审美和功能性上都有一定的作用,比如它们的主色都是“高级黑”,代表着十足的科技感,并且头盔式的设计可以减少外部环境对传感器和摄像头的损害,如灰尘、碰撞或其他物理损害。更重要的是,它们可以规避“恐怖谷效应”给人带来的不适感。
“头盔式”的抽象派十分受欢迎,但仿生派也一直在研究如何将机器人的表情做得更像人,这一领域主要有两种技术路线:自主式和远程操控式。自主式机器人通过机器学习和算法驱动来生成面部表情,而远程操控式机器人则依赖操作员的指令来模仿其面部表情。
例如,哥伦比亚大学工程学院的创新机器实验室开发了一款名为Emo的机器人。该机器人采用自我监督学习框架,能够预测人类的面部表情,甚至可以在一个人微笑前的840毫秒内做出预测,与人类同步微笑。
而更早的时候,有学者为了更好地练习机器人模仿人类表情,开发出开源机器人Eva,并发表论文解释了机器人表情驱动的原理。
Eva的头部由面罩驱动机构、下颌、眼睛和颈部四个部分组成,论文中描述,“其中面罩驱动机构采用了12个MG90S伺服电机、两个用于容纳伺服电机的3D打印伺服组、一个定制的硅胶面罩、一个用于支撑面罩的3D打印头骨以及穿过特氟龙鲍登管的钢丝。”
这些钢丝穿过管子,连接到头骨内的各种伺服电机上,“为了产生面部表情,需要启动12个伺服电机中的特定子集,从而拉动钢丝并使面罩变形,以模拟面部肌肉在做表情时如何使皮肤变形。”简单来说,钢丝可以通过工作人员发出的指令,组合式地驱动多个伺服电机,将力传导到面罩上,从而形成机器人的“表情”。
在WRC2024上,EX机器人CEO李博阳对腾讯科技说道,“EX机器人的面部集成了几十组自由度,并且通过EX自研的一套系统完成对表情的驱动。同时,开发一套情绪模型,便于机器人进行情感分析,并将其映射到表情上。”
把人形机器人做得无限逼近人类,似乎是一种执念,WRC2024上的活跃的“仿生派”,正是这一执念的显化。
量产、进厂的机器人,不为打工为数据
在今年的机器人大会上,人形机器人不光数量大幅提升,这些甚至只是第一代的产品还直接纷纷宣布量产,能够进厂打工了。他们一路小跑,跟上了前辈特斯拉Optimus的脚步。
稚晖君创立的智元机器人,预计2024年发货量300台,其双足人形机器人10月起量产,年出货量预计200台。UniXAI的轮式人形机器人Wanda也计划在9小规模量产,年内预计生产100台左右。在现场,优必选甚至直接搭建了一个工厂场景,去展示他们最新的人形机器人进厂操作的全流程,包括筛查车辆状况,分类拣取产品以及搬运工作。据他们的工作人员介绍,优必选已经和汽车企业合作,真正开始在厂里运作了。
但讲到机器人的性能时,相关工作人员承认,目前只能达到人类效率的20%-30%,而且电池续航仅有两个小时。续航短也是业内人形机器人的普遍问题。
这样水平的机器人量产、进厂,真的是为了工业化落地吗?并不是。
这就需要再次聊起,上文投资人曾提到的机器人的“泛化”能力,这是需要大量数据的。
那需要多少数据呢?
比如在UniX-AI的站台上,他们装载了大模型的Wanda机器人一口气展示了包括洗衣服、叠衣服、制作汉堡、3D清洁等多项任务。这一过程中最令人印象深刻的就是Wanda洗衣服的场景,它首先接受到人类对它的命令,之后自动寻路去寻找脏衣服,并把它投放进洗衣机中。这看起来已经颇具独立完成全流程任务的能力了。
但这种泛化很有限。
UniX-AI创始人杨丰瑜对腾讯科技表示,像洗衣服这样任务级的泛化,这是目前的数据和训练能够达成的。但能主动识别,完成一个模型处理多种任务的泛化功能,目前还需要一定时间。
在整场机器人大会中,我们能看到各种能进行拆分任务的机器人。像优必选会分拣物品的WalkerS,星尘智能能写出一手漂亮毛笔字的S1。但真正能实现多任务间泛化展示的机器人基本上没有。
他们在固定的展位上做着各种大差不差、非常有限的工作,甚至流程看起来都很程式化。这一时间让人恍惚,好像回到了大模型到来之前的编程机器人时代。
在机器人大会期间的采访中,作为RT-X项目的参与者的WolframBurgard教授就认为当下的基础模型训练方式有着能效上的巨大问题——它需要太多的算力和数据才能达到泛化的门槛。
他举了个例子——在RT-X数据集项目中,虽然他们收集了超过100万个片段,覆盖了机器人的500多项技能和在16万项具体任务上的表现,但当桌子高度稍有不同,RT-2就可能完全无法正确进行任务了。
这就意味着,我们离真正泛化的具身智能ChatGPT时刻,可能还差着至少半个互联网那么大的数据量。
因此,在这场达成“泛化”的比赛里,能够先批量获得数据的企业才能占据先机。因此获得有效数据,是很多机器人公司在台下最火热的战场。
智元机器人发布会上,稚辉君就宣布了智元的数据采集计划。他们预计9月底建成有100台左右机器人的采样厂,对应150个工人,接下来进入数据量产阶段,目标是一个工人1000条数据/天,当前是600条/天。这就已经占据了他们预期“量产”机器人数量的1/3。当然,投入自有回报,按他们给出的数据,这个数据工厂10天就可以收集到和RT-X数据集一样大的量级。
而UniX-AI和星尘智能这些剑指具身智能实现的后起之秀,也强调自己在数据采集方面的投入。UniX-AI创始人杨丰瑜提到,他们在对机器人的训练中已经用到了在虚拟环境的模拟训练,以及视频采集分析这些“新采集方法”得到的数据。
但据智元透露,目前这些真机采集数据非常贵。即使采用大规模的生产,成本也需要0.4元/条。即使在模拟环境下获取的仿真数据,也需要真人数据60%-70%的成本。
那怎么才能更好地、更便宜地收集数据呢?进厂打工也许就是个对双方都有利的选择。机器人能获得一个收集实践工作相关数据的真实场景,而相关的人力成本可能都能节省下来;相关企业则能获得智造探索的行业经验,又可以多一个宣发口径。
消化了“量产”人形机器人中相当一部分的现实企业,不过是现阶段人型机器人的另一个数据工厂罢了。
人形机器人也走“亲民”路线,哪里不对“拆”哪里
“量产”一直是人形机器人的产业难题,主要原因在于各家关键零部件规格不统一、参数要求参差不齐,很难形成标准化。宇树创始人王兴兴在WRC2024前也对腾讯科技说道,“每一家做具身智能的思路都不一样,比如机器人的传感数据应该怎么采集,要不要触觉传感器,末端执行器应该有几根手指,都不统一”。
尽管行业的路线还在探索,但其实很多公司都在用“模块化”思维做人形机器人,即,人形机器人就像一个“大玩具”,胳膊、机械手、底盘都可以被拆卸和安装,而在今年的WRC2024上,模块化设计机器人的路径被直接呈现了出来,“人形机器人赛道软硬件标准化程度低,将零部件模块化,其实也是一些公司在初步尝试做标准化”,一位参加WRC2024的业内人士对腾讯科技说道。
机器人公司尝试模块化的主要零部件,聚焦在上臂、灵巧手、双足,比如星动纪元Star1机器人可拆卸替换底盘,Star1的底部既可以换成双足也可以做成轮式,“如果有需要,也可以不用底盘,只保留上半身”,星动纪元工作人员说道。
而智元机器人的“灵犀X1”机器人主打开源,电机、夹爪等核心零部件可以实现拆装。
但末端执行器的替换,涉及到本体对不同类型夹爪的控制能力,比如,能轻松运作指夹爪、三指夹具的本体,未必能够驾驭好五指灵巧手,“它们所牵涉到的控制能力不是一个级别的”。
结语
虽然WRC2024过后,不少人对人形机器人的应用表示怀疑和失望,在实际场景中连传统机械臂都比不上,甚至觉得“人不如狗”,但技术的进步是循序渐进的,机器人的泛化和智能也并非一蹴而就,在这中间可能会涌现很多“中间态”的产品类型。
这些“中间态”产品在发展过程中,可能会出现一些脱离正常生长轨迹的状况,比如让还不成熟的人形机器人进厂“打工”,就像要求一个刚刚蹒跚学步的孩童去百米冲刺一样,显得有点“揠苗助长”,甚至可能丑态百出。
但人形机器人需要被“拉出去溜溜”,它只有走进人类、感知世界,才有可能真正服务于人类。
本文作者:周小燕郝博阳,来源:腾讯科技,原文标题:逛完世界机器人大会,投资人说再也不想投人形机器人了
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。