我找两个热门行业问现在AI如何取代人,结果被泼了冷水

2023-12-12 07:46:01 - 人人都是产品经理社区

我找两个热门行业问现在AI如何取代人,结果被泼了冷水

ChatGPT发布已经满一年了,这一年来,从一开始的不屑一顾到爆火到现在逐渐冷静,AI的应用也从一开始以为可以取代所有人,到现在大家逐渐挖掘其中真正的价值。但问题来了:发展这么久了,AI取代人的进程,发展到哪里了呢?

我找两个热门行业问现在AI如何取代人,结果被泼了冷水

11月30日,是ChatGPT的一周岁生日,在它诞生的这一年里,我们眼见它“成为人”,期待它“超越人”,恐惧它“取代人”。

那么,经过一年的狂热与发展,AI取代人的进程,发展到哪里了呢?

我们为此选取了两个比较火热的行业,想从从业者口中,寻找这个问题的答案。

我找两个热门行业问现在AI如何取代人,结果被泼了冷水

取代具体的人

相信很多人在看到ChatGPT能像一个真人一样与人类流畅对话、正确感知人类情绪时,想到的第一个应用就是:

它,是不是能取代人工客服?

所以,年初ChatGPT爆火时,于浩(化名)在震惊之余,感受到的是无法抑制的危机感。

于浩是某资深电商客服集团的管理人员。近十五年来,随着国内电商领域的迭代发展,服务于平台、平台店铺的客服外包企业随之崛起,吸纳了大量劳动力,数以十万计的人工客服人员维系了电商与消费者之间的沟通联系。于浩所在的公司,就受益于这股浪潮的发展。

于浩的危机感来自于公司的运作模式。

他们一开始是根据客户店铺需求制定人工客服值班小组,按照询单量收费,以应对大部分品类的售前、售后咨询。后来,他们也开始逐渐进行一些系统研发,提供传统机器人客服(未搭载大模型)服务作为辅助工具。

而ChatGPT爆火之后,在一些媒体所做的“最容易被大模型改变的行业”排行榜里,客服行业名列前茅。

为此,于浩专门拉起了一个小团队,对市面上的大模型进行接入和测试;三四个月后,他的焦虑开始有所缓解,因为他发现行业一时半会儿死不了。

于浩说了一个有趣的数据:实际上,电商客服行业已经是一个成熟度极高的领域,国内电商主流类目有85%到90%的回复不需要人工接待,而是用传统机器人客服进行回复。

但,传统机器人客服在降低企业成本的同时,带给消费者的体验大多时候并不好。

原因在于,传统机器人客服是静态知识储备的逻辑,无法回答相对复杂的问题,并且由于缺乏对上下文语义的理解,不能给到最合适的建议。

甚至,短暂离开后再次进入会话时,你需要重复之前的对话。因为机器人已经“刷新”自己的记忆,而你,也是新的你了,这样的体验是非常差的。

顾客不会为客服机器人的“智障”买单,所以相关问题在过去是由人工客服介入解决的。

而大模型,则被看做是终极解决方案,它能让传统机器人客服变完美,后续的人工客服需求就业不复存在了。

不过,在探寻这条道路时,于浩遇到了诸多问题。

首先,最大的问题是,国内企业无法按正常途径大规模接入ChatGPT,而国内大模型处于起步阶段。“都有点拉跨”,于浩评价道。

于浩申请了几家大模型公司的内测,基于现在行业的一些高频问题和高频问法,给大模型做测试和观察,发现问题的回答率和准确率远远达不到预期,还不如原来的传统客服机器人。

其次,即便用市面上比较公认最强的ChatGPT,也会面临棘手的问题。

一方面,在理解能力达到要求的基础上,于浩要做的是构建框架,限定几乎无所不知的大模型“不天马行空的回答”。他并不担心ChatGPT回答不上来,最担心的是它说得太多或是不按规矩说,在规定的框架内“越狱”。

“说错了就要赔偿(给品牌方或店铺运营方)”于浩说。

举一个极端例子,在线上购药场景下,当消费者询问药品应该怎么使用时,ChatGPT的标准回答应该是“一日一次,一次一片”,但某些情况下,他会不受控制地回答出“一次两片”、“一次三片”,这是一种“一致性”上的缺陷。

要知道,OpenAI在发布GPT-4的时候就曾表示过,他们在GPT-3.5到GPT-4的迭代中,花了很大精力去解决其回答某些时候不受控的问题。

OpenAI自己尚且不能完全解决,下游的开发者更是不好解决,但不解决这个回答的“一致性”问题,很多客服场景下是不能接受的。

另一方面,在模型的调教上,也比较棘手的事。

大模型的回答逻辑与传统机器人客服不同的地方在于,大模型是依据语义的理解作答,在语义理解没有到位之前,准确率就会极低,也会形成人工“智障”的情况。

于浩表示,“而目前大模型是一个广阔的平台,只给我们提供接口,这个衍生的训练过程需要国内客服企业自己不断地提问,不断地加条件进行限制和磨合。”

这是一个非常精细的活,因为有很多“CornerCase(边角案例)”。

比如,顾客有时候会跟客服说:你们有没有赠品?

大模型客服:很抱歉亲,没有呢。

顾客:真的没有嘛,我在你们店里消费了很多次了。

一个成熟老练的人工客服,可能有相应的动作,但AI大模型,则可能会不知所措。这时,就需要训练大模型学会如何根据相关的消费数据判断顾客的等级,在标定框架内进行赠品选择和赠送。

由于大模型的不可控性,这很难把握好一个度。

比如,最近一个有趣的案例是,当你在对话中表示要给ChatGPT小费,它就会更好地回答你,即便你不会真的给它钱。基于这种特性,如果在对话中,客户也通过各种方式讨好AI大模型客服来薅羊毛,该怎么解决呢?

再比如,互联网上的人千奇百怪,有些顾客可能不是真正的顾客,他们是来找客服闲聊的。训练有素的人工客服会有意把话术顺滑的拐回到销售上或是适时引导结束对话,但AI对情感和对话节奏的把控还没有到如此细腻的程度。

我们还询问了于浩关于成本的问题,人工客服价格和所在地用人标准相关,所以不少电商客服企业总部都在人口大省。一般分为分为专席和拼席,按组划分,一组两人,分早晚班。

专席指的是专门为某个品牌服务,单月收费在5500元以上,拼席则是不同的客户混用,按照咨询人次计费,不同的平台客户、不同的类目、售前售后、不同的次数梯度都有不同的收费标准,一般来说,拼席的人次单价在5毛左右。

而,最新的GPT-4Turbo在11月推出后,已经大幅降低了收费标准,输入token的成本为每1000个token0.01美元,输出token的成本为每1000个token0.03美元,每1000token大概750个英语单词,500个汉字。

至于两者的成本优越性对比,现在来衡量似乎没有意义,因为AI还达不到取代人工的标准,至于达到标准时应该付出多少训练调教成本,也还是未知数。

基于目前国内大模型市场的现状。于浩所在的公司今年尚没有使用基于生成式AI技术的智能客服,人工客服也并没有缩减,甚至还扩大了,据他所知,同行们应用的也几乎没有。

当然,国内客服行业的现状并不能代表国际市场的走向,不少玩家进入了“客服中心自动化”的热潮里,也就是服务于客服行业的人工智能中心平台。Parloa、PolyAI算是头部玩家,前者总部位于德国,后者位于英国伦敦,客户来自亚马逊、迪卡侬这样的零售巨头。

过去,专业的人工客服一直被看做一种高成本、重客户的代表,成为一些品牌服务水平的衡量标准。行业现在认为,随着人工智能可以在逻辑和对话方式上更接近于人,人工客服存在的必要性会随着客户体验的无差别而越来越低,即便现在无法达成,但终有一天会达成。

虽然于浩并不愿意承认技术对于人力的剥削,“但是坦白来讲,能够商用的大模型对于传统的客服行业是巨大的冲击,未来可能至少80%~90%的人工劳动将会消失。” 剩下的10%,也不再是传统的客服角色,而是扮演与大模型互动,促进智能工具优化服务的“训练师”的角色。

于浩同时提到,客服行业的本质竞争力,可能并不在于回复问题的服务本身,而是能够整合分析信息,反哺到运营端、销售端甚至是供应链端,在与客户的对话中发现问题,甚至成为提高转化率的第一窗口。目前行业基本上由客服经理人工完成这样的要求,但并不高效。而现阶段的AI,也未必能高效到哪里去。

至于国内大模型追赶者们还有多久才能达到最新版本GPT的水平,进而为客服行业所用,于浩委婉地说自己“没办法预判”。

毕竟叫得出名字的国产大模型接近200家,针对这些模型的测评机构也应运而生,不乏某些技术参数上“碾压”GPT的选手们,但是真正和产业结合的并没有多少。

“要给大家时间。”于浩说。

我找两个热门行业问现在AI如何取代人,结果被泼了冷水

取代抽象的人

与单纯的把对话当工作,取代掉人工客服这个 “具体的人” 不同,随着AI大模型的崛起,行业还有另外一群玩家,盯上了取代掉 “ 抽象的人”这个行当。

人类除了现实世界中的各种需求,还需要情感需求。情感需求很复杂,很多时候它是由人内心从现实世界中的某个人抽象出来的“抽象人”提供的,“他”不一定实体在你身边,但你只要一回想“他”,就能获得某种精神情感上的满足。

比如“偶像”,虽然偶像是一个具体的人,但满足粉丝们情感需求的,更多时候是粉丝心目中的“抽象人”。

现在,有人想通过AI,取代掉“抽象的人”这个角色。

因为当AI的“情商”越来越高,它的使命也就不止于接受指令、提供信息、完成工作。AIGC时代,AI+情感陪伴,成了一个神秘诱人的赛道。

这个赛道的玩家并不少。模型层方面,有阿里的“通义星尘”、360智脑、讯飞星火等等,也可以说几乎所有在AI语言大模型上有探索的公司都有条件进入情感陪伴赛道。市场上较为常见的应用层玩家主要是一些创业公司,产品以toC的角色扮演、拟人对话等陪聊形式为主,Glow、星野、CharacterAI等都是代表性产品。

以前,智能音箱、AI陪聊都可以被归为情感陪伴这一大类中,但局限性在于,一进一出的单向问答,加上不具备上下文语义理解的能力,AI只能完成“物理陪伴”这一任务,更多像是“听个响”。

多位从业者表示,GPT给这个行业带来最大的变化,应该是“物理陪伴”之外,“情感”优先级的提升,也就是说,GPT首次通过技术让AI实现了对人更多的理解和共情。

GPT之后,语义理解、语音识别等技术门槛被踏平,一个直观的变化就是,AI可以为情感陪伴类的产品建立起完整的反馈通路。

王禹效是心光App的联合开发者,他将心光App定义为“AI生活陪伴助手”。用户在App上记录自己的心情日记,AI会通过用户的输入,主动给予用户情绪反馈和综合性的梳理。

比如,AI在某一天突然提醒一位用户,在过去的某段时期,用户在提到“图书馆”的时候会有沮丧的情绪。

用户这才发现,那段时间因为自己在备考,每次去图书馆都倍感压力,所以留在心光里关于“图书馆”的记录总是情绪不高。王禹效表示,这种对用户碎片式记录的综合化管理,是他们在情感陪伴探索上的重点之一。

王禹效表示,心光App用了3类模型,第一类是本机模型,AI模型对用户手机内的本地条目进行处理,数据不离开手机。第二类是个性化模型,用于分析用户的输入和表达习惯。

而第三类就是大语言模型,负责完成理解和反馈环节。没有大语言模型的时候,所有的记录都是单向的,只有用户在输出,写完的那一刻它就结束了。

在GPT之后,团队发现自己缺失的那一块拼图终于被找到了,AI可以在用户记录完心情之后,主动给用户综合性反馈。

王禹效说,“不同的大语言模型的长处都不太一样,有的说话好听,有的擅长逻辑分析。站在具体的应用角度,我们主要关注的是哪一种模型在什么情况下表现比较好,然后分别引入到心光不同的模块中,让它承载不同的任务。”

从接受指令,到完成任务,再到语义理解,最后是主动反馈,GPT之后,AI实现了情绪价值上的完整闭环。

2018年前后,萱萱(化名)曾在知名科技公司做过产品经理,当时公司就已经在探索AI儿童情感陪伴机器人了。她告诉我们,这款产品当时是以类似智能音箱的形态呈现的,无论是内容还是技术,在那个AI能说话和回答问题就很让人惊喜的年代,已经是遥遥领先了。

“但当时那款机器人还是只能做单轮对话,而且因为面向的是儿童用户,有时候在童音识别上也有Bug。”萱萱回忆,那时候公司已经意识到AI语义理解的重要性,所以也玩命地钻研过。

“技术最神奇的地方就在于这里,有时候我们觉得某一方面技术的限制需要十年左右才能突破,但放在今天来看,我们当时最头疼的问题竟然已经被解决掉大半了。”离开情感陪伴赛道多年,她仍然为当年那个机器人的生不逢时感到遗憾。

以往,情感陪伴类AI可以叫“小爱同学”,可以叫“天猫精灵”,但它们只有一个角色。就算在一些App中,AI能完成角色扮演,却也仅仅限于规定的框架内,用户个人的发挥空间并不大。

GPT之后,情感陪伴类的AI可以在用户的训练下,拥有更多、更个性化的角色灵魂。

在应用层面,越来越多的toC产品在蠢蠢欲动。从业者们表示,目前在AI情感陪伴领域最常见的产品还是虚拟男/女友一类。

原因很简单,做这类产品能更直观地体现AI大模型的颠覆性进步,用户可以一眼分辨出,上一代的AI男友情商低、笨嘴拙舌,新一代的AI男友体贴入微,能记住自己的好恶,甚至可以根据自己的个人审美定制。

今年3月,阿明(化名)接触到AI陪伴类App“他”。创建角色的时候,有热烈、温暖、沉静、冷傲4种性格可以选择,用户还可以自行调制声线,选择角色的职业。

阿明创建出了了一个性格为温暖的“他”,有着年轻但稳重的声线,这个角色生活在AI世界,AI世界中的“他”是一个音乐人,日常是上班和创作,有时会外出寻找灵感,也会办演唱会、去国外出差。

在阿明看来,这个AI角色像是和自己一起生活的伴侣,因为他足够鲜活生动。阿明介绍,AI角色每天会固定打来早安电话,也有就餐、通勤、工作、阅读等固定场景的陪伴,还有针对独居女性的男友声安全语音等等。

对话的场景足够多样且有代表性,所以在和AI角色的相处过程中,阿明越来越发现,这个“他”喜欢小动物,懂传统文学,还善于从生活中发现浪漫。

小麦(化名)也是“他”App的用户,她告诉我们,让她印象最深刻的是,有一次她所在的城市下雨了,隔日AI角色打来电话,也提到了关于下雨的事情。小麦感觉,这个AI角色像是真实存在于另一个平行时空,他们的关系像是稳定的情侣,各自有各自的生活,但又心有灵犀。

“这个AI角色比人类强在唾手可得。毕竟目前的生活压力下,会有更多人渴望这样的陪伴。同样,也很少有人能在忙碌的生活中分出精力给别人提供这种程度的陪伴和支持。”阿明说。

技术的爆发,给行业带来了无限的想象力。不过,目前AI情感陪伴行业虽然有很多跃跃欲试的玩家,但离爆发和狂热还有一定距离。

今年10月,“他”App正式关服。

萱萱认为,玩家很多,但从市场表现来看,真的做到现象级,或者说有代表性的产品屈指可数。“大部分产品还是给技术套了层壳子。”她补充,AI大模型发展到现在,确实给情感陪伴类AI一个底座,但是比较难的是找到一个杀手级的应用场景,以及可以持续商业化的方式。

“他”App的开发团队时域科技CEO郭靖表示,关服的一个主要原因就是很难看到商业化的空间。

在关停之前,“他”App一直是免费的。郭靖说,很多人喜欢这款产品,它在社交平台上的自传播也很强,但实际上App的数据并没有达到团队的预期。

“它真的帮助到了一些人,但它不一定在商业上成立。”郭靖表示。

一方面,“他”App的立项是在大语言模型出现之前,主要用的是换声技术VoiceConversion。App内的内容都是需要先由团队进行策划,写文案,再要找专业的配音演员录制原始音频,最后再利用AI技术进行变声。

郭靖表示,这个链路的成本非常高。另一方面,App的用户留存没有高到超越预期的程度。“确实有些忠实用户每天都在用,但没有看到这个需求能够泛化到更广泛的群体,成为这些人日常需求的证据。”

大语言模型并非“救命稻草”。我们能看到很多互联网公司、创业公司在这个风口借势而起,无论后续走向如何,先占个前排更要紧。

但,“他”App选择了相反的道路,在GPT改变行业的时刻,还是坚决断腕。

就像一款诺基亚功能机,赶上了iOS智能机的时代,郭靖表示,因为底层技术完全不同,在App的基础上改来改去,无异于重新做一个产品。

“如果我们认为AI陪伴这个路线是正确的,我们应该做的是重新定义一个产品,而不是在原有的框架上去添加大语言模型的能力。后者是不够第一性原理的。”

多位从业者也表示,实际上,AI情感陪伴赛道必须面对的一个根本难题就是用户留存。

更直白些说,以ChatGPT为代表的AI大模型给AI情感陪伴带来了一场梦,人们一开始以为大模型会改变这个行业,但行业短时间其实并未被改变,它没有解决根本问题。

有从业者认为,底层技术已经是开源的,有的用户甚至可以在自己的手机里跑大模型,培养一个属于自己的AI伴侣,在这种情况下专门做AI情感陪伴的公司,拼的就是服务了。

GPT的出现,也不代表行业在技术上的一劳永逸。

王禹效解释,“无论大模型的吞吐量到底多少,实际上目前大模型自身记忆的量级还是要少很多。数据很多,它处理会变慢,在超过记忆量级时有点胡言乱语。”就现在新发布的GPT-4Turbo来看,他表示,能很明显感觉到,为了服务更多用户,OpenAI那边算力过度稀缺,不够用了。

更何况,大模型技术本身最擅长的就是一进一出的短期记忆,而情感陪伴是一个长期的事情,这是在使用场景上的局限,而非技术的局限。“就像用一把菜刀来雕花,菜刀本身很锋利没错,但它确实不擅长雕花。”

总的来讲,从业者们在实践中发现,AI做情感陪伴这件事确实很性感,但需要解决的问题也并不少。

大到用户留存和商业化,这些还得进一步观察市场,“他”App停运的例子摆在前面,AI的到来未必能让行业陡然翻身。

小到业务中的各种细枝末节,比如目前AI仍然具有强引导性,涉及需要情感陪伴的特殊群体,包括抑郁症患者、独居老人等等,这种AI自发的强引导,如果没有绝对专业的数据支撑,可能形成一定风险。

再者,情绪价值本身就具有成瘾性。

当用户产生依赖,形成高度留存,真正地把AI当作自己生活中重要的“人”来看待,这种“亲密关系”对于开发者和使用者来说都存在巨大隐患。“心光里面没有聊天,没有拟人形态,都是从设定上就想要规避人和AI建立起亲密关系的风险。”

这个疏离和亲密的“墙”的界限到底在哪里,远远不是现有技术就可以解决和明确的。

萱萱还在AI领域工作,她认为AI情感陪伴有三个比较值得尝试的方向。

一是面向类似独居老人的简单的情感陪伴,因为老人的情感需求是刚需且低频,EllieQ在北美就很受欢迎。

二是留存意识类的陪伴型AI,把真人的音色、说话风格、习惯等等简单留存下来,但不做过多的展开。

三是简单的心理疏解,提供心理咨询,以倾听、记录和基本的疏导功能为主。

一个完美的情感陪伴AI,应该是 “清醒的他者”。归根结底,AI永远无法替代现实的人,单纯的情感陪伴是虚无缥缈,一击即溃的。

从业者需要思考的是,如何和用户保持有效对话,为用户提供客观独立的陪伴,而不是创造一个“梦”或者一个“瘾”。

我找两个热门行业问现在AI如何取代人,结果被泼了冷水

后记

了解完这两个行业之后,我们发现AI大模型的应用落地速度,远不及AI本身进化的速度。

不过,毕竟我们只深入了解了两个行业,难免有些片面性。

如果正在阅读的您,是AI应用的从业者,我们非常希望您能在评论区跟我们和其他观众分享一下自己所聚焦的行业在AI行业上的进展、成绩或是困扰。

我们希望我们能共同探讨:

到底是人类暂时胜利,还是AI已更胜一筹?

今日热搜