逛完世界机器人大会，投资人说再也不想投人形机器人了

2024-08-29 13:43:00 - 华尔街见闻

“人形机器人目前既不够有用，又拉不开差距”，一位投资人表示。

过去一周，我们仿佛能在世界机器人大会上看到全世界的机器人，600余件相关展品几乎覆盖了机器人的各条产业链。

机器人类型也多得令人眼花缭乱，比如“上蹿下跳”的机器狗、整齐划一“摇曳”的机械臂，还有可以做到不把酒撒出来的“送餐小能手”等。

不论是机器人数量还是参展热度，人形机器人都堪称“C位”。据官方表示，这是人形机器人数量最多的一届大会，而现场几乎一半的观众都集中在人形机器人公司的展台。

这些人形机器人高矮胖瘦各不相同：从仅有110cm的加速进化“小巧”型BoosterT1，到足有185cm的“壮汉”型青龙机器人一应俱全。每一家机器人的机械臂形态、电池位置，脸部造型，乃至移动方式都风格各异，但他们都在卖力地表演着“绝技”。

论武，它们能打咏春、拳击、跳“海草舞”，甚至能在有钢管的地上跑步飘逸；论文，它们会写毛笔字，还能做菜、洗衣、叠衣。在多个展台上，机器人们显得一派绝活学尽，就等着进厂打工或是去客户家服务的高昂姿态。

逛完世界机器人大会，投资人说再也不想投人形机器人了

但一位长期关注人形机器人赛道的投资人逛完展会后，却对腾讯科技表示：“我一个也不想投了”。

他们目前既不够有用，又拉不开差距。

比如，工业场景人形机器人，主要任务是做拣选和小范围的搬运、挪动，但现有的传统自动化机器人已经有很成熟的方案，再做人形机器人意义不大。而聚焦家用场景的人形机器人主要任务就是烹饪、叠衣服、炒菜，虽然各家机器人在这类场景的完成度有差异，但投资人表示，“你能做到的对手也能做到，并不存在不可逾越的差距，只是时间问题而已”。

经腾讯科技不完全统计，此次大会一共有28家人形机器人公司参展，各家公司产品的服务场景除了科研之外，多数都集中在工业或家用场景。

逛完世界机器人大会，投资人说再也不想投人形机器人了

从腾讯科技的统计可以看到，这些机器人的机械性能差异不小，比如自由度、峰值扭矩等指标，最多能有5倍差距；单拿移动速度来看，最快的一级能达到7km/h以上，慢的却只能做到2.5km/h。但在软件基础——大模型层面上，各家却很难拉开大的差距。

而这本应是今年人形机器人的最大亮点。

因为比起特定应用的工业机器人，“人形”这类型的机器人设计其实并不高效。它最大的优势就在于更能实现在人类社会中的“通用”，即人类不需要为了方便机器人的运转而特意改造环境，人类的双手能够着、双腿能抵达的地方，人形机器人也可以。

而实现“通用”的关键就在于有足够强的通用模型。

对这位投资人来说，展会内软件突破有限的人形机器人已让他感到审美疲劳。“现在能让我眼前一亮的，大概是真正拥有泛化能力的机器人”，比如一个会拖地的家庭服务机器人，可以不用主人发号指令，就能自己想到主动去房间铺个床，干个活。腾讯科技沟通了多位关注机器人赛道的投资人，他们普遍认为，做人形机器人，硬件本体并不存在真正意义上的壁垒，软件才是难题，因为它决定着人形机器人的泛化能力，只有拥有强大的泛化能力，人形机器人才能在多种任务场景中工作，才能更接近“通用性”。

但通往AGI是一个美好的理想，除了要奔向远方，也要结合当下的技术条件循序渐进。

虽然今年的人形机器人赛道让VC们略感失望，但和往年相比，我们发现这个赛道其实也有一些值得关注的新变化。

人形机器人的“表情包”执念？

如果未来人形机器人想要实现真正意义上的情感陪伴，它的“脸”和“表情”会变得极为重要。

日本机器人学者、ATR石黑浩特别研究室室长石黑浩认为，“随着我们接触到越来越多的机器人，我们可能会逐渐接受栩栩如生的机器人，并在未来依靠它们来满足我们的护理和其他需求。”

海银资本创始人王煜全也有类似观点，他曾对腾讯科技表示，机器人没有必要像人一样拥有双足，但它们可以像人一样拥有一张能做表情的“脸”，具备这项能力，机器人可以更好地胜任迎宾接待、陪伴这类需要与人类交流的工作。

关于人形机器人做不做“表情”，有两个派别：“抽象派”和“仿生派”，前者主张用抽象的符号传递表情，以表达情感交流，后者主张将脸做得无限逼近真人，希望能和人类一样，可以通过调动“肌肉”的力量驱动面部表情。

在WRC2024上，我们观察到，除了主流的“抽象派”，更多的“仿生派”开始入场，并且这类机器人可以做各种“表情包”。

典型的代表是国内仿生机器人公司EX集团，EX集团去年将“李白”、“杜甫”带到世界机器人大会，今年又做出来“苏轼”。

逛完世界机器人大会，投资人说再也不想投人形机器人了

此外，和去年相比，今年又多出一家做表情的机器人公司“数字华夏”，它的人形机器人“夏澜”在现场和观众做起了互动：

逛完世界机器人大会，投资人说再也不想投人形机器人了

除此之外，也有很多产品并不讲究把“表情”做得多么细致，有的压根连“脸”都没有，还有部分做了“脸”的公司则选择了笼统的“头盔”样式。

仔细留意会发现，不论是国外波士顿动力电动Atlas、马斯克的OptimusGen2、Figure01，还是国内智元新上的“远征A2”、宇树公布的新品“G1”、优必选会进厂打工的“WalkerS”等，它们都顶着一张相似的“钢铁”面庞。

逛完世界机器人大会，投资人说再也不想投人形机器人了

这些人形机器人面部材质几乎都使用黑色的玻璃面罩，用LED镶边，宇数创始人王兴兴在WRC2024之前的交流会上表示，“我对G1的头部设计很满意，短时间内不会改变”。

或许其中一个原因是，这类面部本身就是一个屏幕，上面可以出现任何抽象符号，方便组成表情，向人类传递情感。比如，Figure01或Figure02在说话的时候，面部会呈现OpenAI的标志性符号，虽然算不上真正的表情，但也让和它交流的人类感受到“你正在认真听我讲话”。

逛完世界机器人大会，投资人说再也不想投人形机器人了

其实，回溯人形机器人“鼻祖”——第一版波士顿动力机器人“液压”Atlas的外貌，你会发现，它连基本的“脸”都不存在，更谈不上有表情，它的面部看上去有点“糊弄”，只用了几根略粗的钢管和带有两个孔的器件，简陋地搭建了一张Atlas的脸。

这可能源于波士顿动力创始人MarcRaiber的一段信念，他曾在接受访谈的时候表示，“能力、灵巧、感知和智力才是机器人的关键功能，其它的都不重要。”

逛完世界机器人大会，投资人说再也不想投人形机器人了

直到2021年，一则液压Atlas舞蹈视频“DoYouLoveMe”爆红，MarcRaiber才开始认可“仿生”对于人形机器人与人类情感交流的重要性，或许正是这一段渊源，2024年的电动Atlas才拥有了一张“头盔式”面庞。

这类头盔式脸庞在审美和功能性上都有一定的作用，比如它们的主色都是“高级黑”，代表着十足的科技感，并且头盔式的设计可以减少外部环境对传感器和摄像头的损害，如灰尘、碰撞或其他物理损害。更重要的是，它们可以规避“恐怖谷效应”给人带来的不适感。

“头盔式”的抽象派十分受欢迎，但仿生派也一直在研究如何将机器人的表情做得更像人，这一领域主要有两种技术路线：自主式和远程操控式。自主式机器人通过机器学习和算法驱动来生成面部表情，而远程操控式机器人则依赖操作员的指令来模仿其面部表情。

例如，哥伦比亚大学工程学院的创新机器实验室开发了一款名为Emo的机器人。该机器人采用自我监督学习框架，能够预测人类的面部表情，甚至可以在一个人微笑前的840毫秒内做出预测，与人类同步微笑。

逛完世界机器人大会，投资人说再也不想投人形机器人了

而更早的时候，有学者为了更好地练习机器人模仿人类表情，开发出开源机器人Eva，并发表论文解释了机器人表情驱动的原理。

逛完世界机器人大会，投资人说再也不想投人形机器人了

Eva的头部由面罩驱动机构、下颌、眼睛和颈部四个部分组成，论文中描述，“其中面罩驱动机构采用了12个MG90S伺服电机、两个用于容纳伺服电机的3D打印伺服组、一个定制的硅胶面罩、一个用于支撑面罩的3D打印头骨以及穿过特氟龙鲍登管的钢丝。”

逛完世界机器人大会，投资人说再也不想投人形机器人了

这些钢丝穿过管子，连接到头骨内的各种伺服电机上，“为了产生面部表情，需要启动12个伺服电机中的特定子集，从而拉动钢丝并使面罩变形，以模拟面部肌肉在做表情时如何使皮肤变形。”简单来说，钢丝可以通过工作人员发出的指令，组合式地驱动多个伺服电机，将力传导到面罩上，从而形成机器人的“表情”。

在WRC2024上，EX机器人CEO李博阳对腾讯科技说道，“EX机器人的面部集成了几十组自由度，并且通过EX自研的一套系统完成对表情的驱动。同时，开发一套情绪模型，便于机器人进行情感分析，并将其映射到表情上。”

把人形机器人做得无限逼近人类，似乎是一种执念，WRC2024上的活跃的“仿生派”，正是这一执念的显化。

量产、进厂的机器人，不为打工为数据

在今年的机器人大会上，人形机器人不光数量大幅提升，这些甚至只是第一代的产品还直接纷纷宣布量产，能够进厂打工了。他们一路小跑，跟上了前辈特斯拉Optimus的脚步。

稚晖君创立的智元机器人，预计2024年发货量300台，其双足人形机器人10月起量产，年出货量预计200台。UniXAI的轮式人形机器人Wanda也计划在9小规模量产，年内预计生产100台左右。在现场，优必选甚至直接搭建了一个工厂场景，去展示他们最新的人形机器人进厂操作的全流程，包括筛查车辆状况，分类拣取产品以及搬运工作。据他们的工作人员介绍，优必选已经和汽车企业合作，真正开始在厂里运作了。

逛完世界机器人大会，投资人说再也不想投人形机器人了

但讲到机器人的性能时，相关工作人员承认，目前只能达到人类效率的20%-30%，而且电池续航仅有两个小时。续航短也是业内人形机器人的普遍问题。

这样水平的机器人量产、进厂，真的是为了工业化落地吗？并不是。

这就需要再次聊起，上文投资人曾提到的机器人的“泛化”能力，这是需要大量数据的。

那需要多少数据呢？

比如在UniX-AI的站台上，他们装载了大模型的Wanda机器人一口气展示了包括洗衣服、叠衣服、制作汉堡、3D清洁等多项任务。这一过程中最令人印象深刻的就是Wanda洗衣服的场景，它首先接受到人类对它的命令，之后自动寻路去寻找脏衣服，并把它投放进洗衣机中。这看起来已经颇具独立完成全流程任务的能力了。

逛完世界机器人大会，投资人说再也不想投人形机器人了

但这种泛化很有限。

UniX-AI创始人杨丰瑜对腾讯科技表示，像洗衣服这样任务级的泛化，这是目前的数据和训练能够达成的。但能主动识别，完成一个模型处理多种任务的泛化功能，目前还需要一定时间。

在整场机器人大会中，我们能看到各种能进行拆分任务的机器人。像优必选会分拣物品的WalkerS，星尘智能能写出一手漂亮毛笔字的S1。但真正能实现多任务间泛化展示的机器人基本上没有。

逛完世界机器人大会，投资人说再也不想投人形机器人了

他们在固定的展位上做着各种大差不差、非常有限的工作，甚至流程看起来都很程式化。这一时间让人恍惚，好像回到了大模型到来之前的编程机器人时代。

在机器人大会期间的采访中，作为RT-X项目的参与者的WolframBurgard教授就认为当下的基础模型训练方式有着能效上的巨大问题——它需要太多的算力和数据才能达到泛化的门槛。

他举了个例子——在RT-X数据集项目中，虽然他们收集了超过100万个片段，覆盖了机器人的500多项技能和在16万项具体任务上的表现，但当桌子高度稍有不同，RT-2就可能完全无法正确进行任务了。

逛完世界机器人大会，投资人说再也不想投人形机器人了

这就意味着，我们离真正泛化的具身智能ChatGPT时刻，可能还差着至少半个互联网那么大的数据量。

因此，在这场达成“泛化”的比赛里，能够先批量获得数据的企业才能占据先机。因此获得有效数据，是很多机器人公司在台下最火热的战场。

智元机器人发布会上，稚辉君就宣布了智元的数据采集计划。他们预计9月底建成有100台左右机器人的采样厂，对应150个工人，接下来进入数据量产阶段，目标是一个工人1000条数据/天，当前是600条/天。这就已经占据了他们预期“量产”机器人数量的1/3。当然，投入自有回报，按他们给出的数据，这个数据工厂10天就可以收集到和RT-X数据集一样大的量级。

逛完世界机器人大会，投资人说再也不想投人形机器人了

而UniX-AI和星尘智能这些剑指具身智能实现的后起之秀，也强调自己在数据采集方面的投入。UniX-AI创始人杨丰瑜提到，他们在对机器人的训练中已经用到了在虚拟环境的模拟训练，以及视频采集分析这些“新采集方法”得到的数据。

但据智元透露，目前这些真机采集数据非常贵。即使采用大规模的生产，成本也需要0.4元/条。即使在模拟环境下获取的仿真数据，也需要真人数据60%-70%的成本。

那怎么才能更好地、更便宜地收集数据呢？进厂打工也许就是个对双方都有利的选择。机器人能获得一个收集实践工作相关数据的真实场景，而相关的人力成本可能都能节省下来；相关企业则能获得智造探索的行业经验，又可以多一个宣发口径。

消化了“量产”人形机器人中相当一部分的现实企业，不过是现阶段人型机器人的另一个数据工厂罢了。

人形机器人也走“亲民”路线，哪里不对“拆”哪里

“量产”一直是人形机器人的产业难题，主要原因在于各家关键零部件规格不统一、参数要求参差不齐，很难形成标准化。宇树创始人王兴兴在WRC2024前也对腾讯科技说道，“每一家做具身智能的思路都不一样，比如机器人的传感数据应该怎么采集，要不要触觉传感器，末端执行器应该有几根手指，都不统一”。

尽管行业的路线还在探索，但其实很多公司都在用“模块化”思维做人形机器人，即，人形机器人就像一个“大玩具”，胳膊、机械手、底盘都可以被拆卸和安装，而在今年的WRC2024上，模块化设计机器人的路径被直接呈现了出来，“人形机器人赛道软硬件标准化程度低，将零部件模块化，其实也是一些公司在初步尝试做标准化”，一位参加WRC2024的业内人士对腾讯科技说道。

机器人公司尝试模块化的主要零部件，聚焦在上臂、灵巧手、双足，比如星动纪元Star1机器人可拆卸替换底盘，Star1的底部既可以换成双足也可以做成轮式，“如果有需要，也可以不用底盘，只保留上半身”，星动纪元工作人员说道。

逛完世界机器人大会，投资人说再也不想投人形机器人了