如何解决AI“胡说八道”问题?李彦宏:5500亿知识图谱叠加检索增强
·针对生成式语言大模型“一本正经胡说八道”的现象,百度创始人、董事长兼首席执行官李彦宏在回答澎湃科技的提问时表示,“百度在这个方面确实有优势,我们做了知识增强和检索增强。”
百度创始人、董事长兼首席执行官李彦宏3月16日在发布会上。
众所周知,不管是ChatGPT还是新必应都会出现“一本正经胡说八道”的时候。有了前车之鉴,百度怎么解决这个问题?
“这种生成式的语言大模型确实会出现‘一本正经胡说八道’的现象,大家在其他大模型的体验过程中应该有这种感觉。”3月16日,百度创始人、董事长兼首席执行官李彦宏在新闻发布会上回答澎湃科技(www.thepaper.cn)的提问时表示,“百度在这个方面确实有优势,我们做了知识增强和检索增强,所谓的知识增强就是有5500亿知识图谱里的事实,它叠加了这些生成式大模型之后,就可以做一些检查,看看生成出来的内容到底和事实是否吻合。”
“检索增强也是一样。”李彦宏说,他昨天询问文心一言怎么看GPT-4,“它可以非常及时地总结出这些高时效的信息和内容。有检索能力和知识增强,叠加预训练生成大模型,就可以做得更好,未来大家在这个方面也会看到我们不断的进步。”
在李彦宏看来,过去这一年多,人工智能领域发生了比较明显的变化——从过去的判别式的人工智能,转向了生成式的人工智能。
什么是判别式的人工智能?李彦宏解释道,“过去十几年人工智能在做这件事,比如拿来一个东西,不管是照片还是视频,人工智能来判别这个跟用户检索的东西是不是最相关,应该排在第几位,亦或拿来一个照片识别出这是杯子还是茶壶。”
而在过去一两年时间,人工智能开始走向生成式,即提一个要求,然后就可以产生符合要求的内容,包括文字、图片、视频。
对于3月16日文心一言的率先发布,百度首席技术官王海峰直言,这不是头脑发热。
“这是十余年的技术积累和产业实践的水到渠成,我们在人工智能四层的技术架构(模型、框架、芯片、应用)上都有很深的积累,尤其是框架层和模型层联合优化发挥了非常大的作用。具体到文心大模型本身,百度从2019年开始深耕预训练模型研发,到现在历时四年,既有基础大模型,也发布了全球首个知识增强千亿大模型鹏城-百度·文心,后面还有一系列更新的模型,而这些模型就是训练文心一言的基础。同时,在技术上,不管是深度学习本身的技术还是对话技术,都有很多积累。”王海峰说。
另一方面,有了技术,还要有数据。王海峰接着说道,“我们在人工智能发展的过程中,尤其在应用过程中,比如搜索引擎抓取了非常庞大的网页库,经过很多精细的处理,积累了高质量的数据。过去几年,尤其是随着百度智能云的发展,在服务客户过程中,我们也积累了很多行业数据,所有这些叠加在一起促成了今天在这里开文心一言的发布会。”
对于ChatGPT的开发机构OpenAI所追求的AGI(通用人工智能),王海峰认为人工智能永远不会完全跟人类的智能划等号,“我们要做的是不断研究更先进的人工智能技术服务人类。”