朱民:2021年我国人工智能论文总量首次超过美国,2025年将成世界最大数据国
由《财经》、《财经智库》、财通汇主办的第五届全球财富管理论坛于2023年2月24日-26日在北京举行。中国国际经济交流中心副理事长、国际货币基金组织前副总裁朱民出席并演讲。
朱民表示,虽然chatGPT在全球掀起热潮,但更应该关注的是其背后的大模型。“国内也一直在做大模型,但我们是落后的,落后两年左右”,他说。
朱民称,2021年,我国关于人工智能的论文总量首次超过了美国,在两年前,人工智能的专利也超过了美国,赶超非常厉害,但我国在大模型上是落后的,特别是现在算力,芯片被卡住以后,要思考如何向前推进。
“我们要围绕AI的2.0,重新制定自己的人工智能发展战略”,朱民强调,要发挥我国的数据优势。
“三年以后,预计2025年中国的数据会超过美国,成为世界上最大的数据之国”,他说,因为物联网的发展,中国的数据质量会很好,要让数据流动起来,变成资源、资产、财富。
“让数据变成生产力是我们迎接科学革命、迎接大模型的最根本的一条,只有在这个基础上,我们才能把大模型的应用和商业化、企业化的发展结合起来,才能走上我们的赶超之路”,朱民说。
以下为演讲实录:
朱民:今天我是作为经济学家跨界演讲,我讲的是chatGPT,所有的网上都在讲,它确实厉害,很惊艳,前景非常好,大家都在讲怎么追,怎么做自己的chatGPT,各个网站现在讨论很多,我借这个机会,把我的观察给各位嘉宾做一个汇报。
chatGPT很有意思,很有未来,它的基础是大模型,它的基础是GPT,它是延伸到GPT3.5的往前的一个应用。人工智能发展的核心是GPT、是大模型,不是chatGPT,我觉得这个概念特别重要,理解这一点的话,我们要把所有的工作重点、赶超的重点、研究的重点放到大模型,放到GPT上来,而不是放在chatGPT。
当然我们应该承认,我们在chatGPT,在大模型上落后,特别是美国对我们制裁以后,算力上的约束在实现赶超上的困难很大,但是怎么发挥我们的优势,这是在人工智能、也是在中国未来科技创新,也是未来的经济金融的发展当中,特别重要的一战,这确实是科技走到今天的一个重大转折点。所以我们要跨越chatGPT,看到大模型和AI2.0的未来。
chatGPT横空出世,chatGPT的出现有点像2016年阿尔法战胜了韩国的世界冠军一样,引起了所有舆论的关注,它的应用场景确实很多,比如财富管理中心,每个人都要填表,要做风险测试,以后就可以用chatGPT,做风险测试,把你的偏好需求全部搞清楚,剩下的就是机器和机器交换,构造财富管理的产品,做风险管理,做整个后台,精准度可以大大提高,产品也可以大大丰富,所以chatGPT是一个很有意思的产品。
比如,医院里,第一个给你看病的医生是chatGPT,它可以把你的基本问题全部搞清楚,剩下的就是机器和机器的沟通和交流,给你做基本的解答,再加上人的辅助,做最终的解答。在这个过程中,把数据全部留下来,这是了不得的事情。
chatGPT本质是一个语言大模型,它是WEBGPT的基础,最早是教上网查询的机器,但它主要应用了生成AI,它可以不断推演,不断反馈,使得它的反馈学习加强,训练加强以后,能够把语言模型的输出和用户的意图连起来,反馈和强制训练强化一下就爆发了,这还是很厉害的。
GPT3.5基础上的应用,它的好处很多,能记住大量的信息,搜索量真的很高,它给我做经济学研究的文献索引不亚于我的助理,因为它的面广。
它能够保持对话和对话的一致性很有意思,但它也能承认错误,与此同时,它支持多种任务,支持艺术创造、改故事,我有一次让chatGPT给我做翻译,翻译的非常优美,很有意思,它可以编码,可以写办公邮件,它的用途是很广的,这就使得它特别火爆。用它参加考试的话,可以考到“中等”以上的水平,这是很不容易的,当然它有自身的局限性,主要是输入的知识的局限性,它的时间点基本在2021年以前,我们用最新的东西试它,就有点跟不上。
从大的应用来看,它是从2020年5月份的GPT3开始的,一直到DALLE生成,到chatGPT,是从大模型的过程长出来的一个东西。国内也一直在做大模型,但我们是落后的,落后两年左右,我们的生态也不够,所以不能从大模型衍生出chatGPT应用。
归根结底要回到什么地方呢?回到大模型,我们现在在chatGPT热的时候,需要在更深的层面上考虑问题,我们要看的是大模型的发展,这是影响今天、影响未来、影响中国、影响世界的最根本的科技发展。
大模型还是从GPT3开始,1150亿个变量,一路过来,我们有盘古,也有百度,清华最近也出了一个GRM,现在世界上从GPT3已经走到GPT4,所以大模型的发展应用是很厉害的。在大模型层面上走的最快的是深层次的人工智能,深层次人工智能能从文字转到图形,文字转到编程,文字转到影像录像,然后走向3D,一旦走向3D就很厉害了,现在生成AI就是做蛋白质的三维的结构分析,深层AI在整个大模型基础上走,这是未来的一个特别重要的方面。
与此同时,从文字到图像生成的模式,从GPT3开始,到DALLE,到DALLE2是一个突破点,从文字到图像的过程是走的很快的。我刚才讲对蛋白质的分析,我们可以对190万个蛋白质用人工做三维的结构图,大概占了我们已知蛋白质的1/100,不能小看这个数,这是一个很短的时间。再仔细想人是什么?人是蛋白质组成的,如果我们能把蛋白质全部数字化,还不能说把蛋白质合成一个人,但可以合成新的物种,所以蛋白质的应用现在也是走的特别厉害的。
这后面一个核心的变化是人工智能从1.0走向2.0,1.0是以编程为中心,2.0是以数据为中心的,这是一个特别大的区别。1.0的时候聚焦的是算法、模型、程序,是软件工程师在主导,2.0的时候是数据,数据越多越精越好,机器自己通过数据学习反馈优化不断生成、迭代,几乎就是一个无限的过程,它就离开了人脑,这是大模型和AI2.0最大的潜力和最大的远景。
我们已经看到了人工智能可能可以离开人已有的智能走向一种新的智能。这个智能并没有被人所意识到,这个事情就很有意思了,所以在这个基础上大模型产生,基础模型是GPT3,现在出现因果人工智能,这是巨大的发展,最后是神经,因为一切是神经AI的网络,神经AI现在走得很快。我现在列的这些最新篮球模型,在整个曲线下都是在两年到五年的阶段成熟,科技的浪潮厉害的不得了。
在这种情况下,产生另一个更大的变化,就是人工智能脱虚向实,虚就是人工智能以前是服务于虚拟世界的,搜索、资讯、信息等等,但有了大模型以后,特别生成人工智能以后,人工智能逐渐走向物理世界,在大模型的基础上,通常走的是文字到图像,到音频、视频、到三维、到蛋白,但未来是什么?在这条线以前,人工智能服务的是虚的,在这条线以后,人工智能服务是实的,是走向物理世界。第一个突破是蛋白,第二个突破是材料,这以后会走的特别厉害,这是因为在大模型的情况下,科学研究的方式发生了根本的变化,我们称之为科学研究的第四范式。
牛顿和爱因斯坦时期,科学研究的简单方式是通过观察,观察把数学模型化,这是最简单的第一方式。第二是用模型推演,第三是用计算机仿真,这不是很成功。进入近代以后,我们发现最大的问题是你观察到的东西没办法写成数学方程式,因为维度太高,在科学研究上有一个概念叫维度的诅咒,特别是量子物理学的角度没法计算,大模型出现以后,现在可以做1024到2048个维度,这已经不完全是个空间概念。两千亿到一万亿的变量,方程可以做到两千亿个变量,这个世界上还有什么方程是不可解的,这在根本上改变了科学研究的方式。以前是慢慢做,细细做,现在是用数据大规模的做,这个世界就真的变了。
这就是为什么最近在有色领域突破特别快,生化、药、材料,都是因为人工智能的原因。根本的科学研究的方式变了,以前科学研究是从最早的原理一步一步往前走,现在科学是从数据逆向倒推,整个思维方式根本变了。大模型现在帮助科学家人工智能进入物理学,特别在数学和材料学,现在用一个数学家和机器合作来探索新的材料,这里有很多逻辑、很多理论,就不细说了,特别也取得了一些很有意思的进展,因为数学家的核心是把所有的一切数学化,能够用公式表达才有应用,不能用公式表达就不能作为产品,就不能生产。做药,最近的生物药研究的时间短了一半,成本下降一半,就是因为大模型的帮助,从数据着手,生物进展很快。
材料,德州用大模型做耐高温耐氧化的高熵的合金,材料科学将来会走的很快,新的材料会出来,会有无限想象的空间,它的算力如此之大,算法效率如此之高,第一次我们可以把物理世界和信息世界、虚拟世界连起来,物理世界的数字在虚拟世界经过大模型回到物理世界去操纵物理世界,这个世界真的变了。现在用的最多的是什么?战争,现在战争的电子演习已经做的很大规模和经济化。现在由人工智能主导运营数字化的过程,因为数字的产生和迭代效率特别高,这个过程也在不断加速自动化,而且在提升自动化的效率。
这种对物理世界的管理和深化,影响是巨大的。大模型带来了巨大的想象空间,大模型特别在推动科学实验方面空间是很大的,它对生命科学、药物研发空间很大,材料科学空间很大,能源科学空间很大,电子工程和计算机科学空间也很大,当然环境地球空间就更大了。大模型现在变成了工程学,变成了一个辅助工具,变成了我们今天所有一切超高级超高速效率的辅助工具,这个世界在这个基点上变了。
我们必须承认人工智能走的很快,中国在2021年第一次人工智能的论文总量超过了美国,中国在两年前人工智能的专利超过了美国,我们赶超非常厉害,但是我们在大模型上是落后的,特别是现在算力,芯片上卡住以后怎么往前走,所以我们需要围绕赶超的过程,围绕AI的2.0重新制定自己的人工智能发展战略,因为这个世界从根本上变了。
第二条是特别重要的,就是发挥我们的数据、人工智能三项核心的资源,算力、算法、数据。算力现在已经被卡死了,因为芯片。算法我们有优势,但在没有芯片的情况下,算法要发挥优势也很难,而我们真正的优势是数据。
三年以后,我们预计2025年中国的数据会超过美国,成为世界上最大的数据之国,因为物联网,中国数据的质量也会很好,所以让数据流起来变成资源、变成资产、变成财富,就是今天这个论坛的主题,让数据变成生产力是我们迎接科学革命、迎接大模型的最根本的一条,只有在这个基础上,我们才能把大模型的应用和商业化、企业化的发展结合起来,才能走上我们的赶超之路。
好,这就是我的简短汇报,谢谢大家!
责任编辑:梁斌SF055