大模型如何从“白日依山尽”预测出“黄河入海流”?阿里巴巴达摩院陈海青解读三大落地场景
8月11日,AI大模型资本产业论坛暨第九届新浪财经上市公司年会在北京举行。吴晓求、田轩、周鸿祎、冯俊兰、武超则、余兴喜、胡锡进、赵伟、盛丰衍、于海宁等专家学者、企业掌舵者、金牌分析师、明星基金经理齐聚。深入探究人工智能赋能与发展、活跃资本市场、后市投资机会等热门议题。
阿里巴巴达摩院创新业务中心负责人陈海青表示,参数是带来智能涌现的充分条件,但不是必要条件。是不是在真实的场景中越大的参数越好呢?这涉及到场景和数据本身的结合。从阿里本身的研究来讲,开源的中小模型基本上参数是以60亿参数和70亿参数为主的。模型体系中并不一定是参数越大模型越好。
早期在GPT的整个方法体系下就是大量的技术人员做排序,生成函数和部分,最后应用到了线上的机制,结合线上大规模C端用户对于模型的反馈自动形成反馈提升和模型,本身的标注规模大,训练相对不稳定,并且需要大量的核心算法人才和部分,所以在初期的落地下我们不建议做,并且在当下中国法律法规体系下无法做泛化领域的大规模强化,未来初始化任务结束之后,在专业领域的强化和部分是可以被展开的。
在未来长期来讲开源模型和闭源模型终将会长期存在,而它所分化的整个领域中是小的、专属的或者小参数的模型,甚至是逐步参数更大的模型,或者社区化一定会发展,因为社区会带动整个技术能力的发展。
是不是在这样的驱使下闭源的模型就没有发展空间和部分了呢?我认为是有的,在专业领域中我们看到对于效能的提升,包括这里从数据的壁垒,算法的壁垒,我们可以举一些例子。比如说金融行业大模型,我认为它存在于相当复杂的场景和体系,是值得今天从基础模型上构建无论是闭源还是开源的基础大模型领域的,因为金融领域足够复杂,从研报,银行的业务,客服等等的业务,有多复杂的下游业务和体系。从今天一个金融量化的角度讲有常规的量化指标也有非常规的量化指标和部分影响这个部分,在大模型角度来讲内容足够丰富。开源必然会更加灵活,成本更低,能够让大家更普惠的使用。
长期来看,闭源模型更多的会走向高效果、高价值,包括高效率的三个方向,这里列举的是当下开源模型不是主流,闭源是主流。过两三年,可能开源模型逐步回成为大家应用的主流和部分,闭源模型会在特殊的领域和行业中体现出我刚才提到的三高领域分化和体系。
在当下务实的大模型方面,包含了问答推理、内容生成、代码生成、文本分析,这是我们在阿里云的基础上在探索的,从助理、客服、内容生成、代码、金融、零售、媒体、能源等等场景看到的整个部分和体系。我们具体列一些我们对行业部分以及深度做的案例和体系。
阿里云已经落地和即将落地的一些场景:
第一个部分从新闻媒体场景来看,除了要做场景以外,刚才我讲了两阶段的模型和体系,对于右边大家看到的内外部实时数据的接入是第一阶段,通过大模型在海量数据中查找和生成今天看到的核心数据。在这个基础上再来做精准的基于新闻结构,无论是金融新闻还是政务新闻、娱乐新闻的结构生成,一定程度上从大模型两阶段部分完成整个新闻摘要写作的部分,还有对字数、文风的控制。
第二个部分从问答体系中,客服会成为今天首当其冲的部分,在大模型的基础上控制好知识幻觉的基础上,可以更多的支持“yesorno”的问题,提高我们离线知识管理的效率以及客户体验的能效提升,作用于平台上称为一次性解决率的提升。
第三个部分是知识文档问答的增强,这里有一个具体的案例。我们通过一个财报的读取和部分,通过文档检索和整个部分去实时回答今天讲的欧莱雅大的财报体系,这三个我认为是当下我们看到在阿里云上主流的场景,包括我们列举了一些案例和落地的部分。
最后做个总结,在大模型的趋势下,大模型的多结构化和推理成本的降低,今天我们采用MOE的架构还是围绕一个、多个模型,这都是很重要的。第二个开源、闭源将来会很长时间内并行产生,以效果化提升为主。第三个以围绕实际业务落地中,以Agent构建,包括上下文的计算,API的对接,一定会成为未来主流的在企业上对接的三种主要的方式,包括落地的整个性能。
以下是演讲全文:
陈海青:大家早上好,我来自阿里巴巴阿里云达摩院,今天分享的主题是大模型规模化落地路径以及我们中间看到的挑战。我今天的分享会分成四部分,第一是离线大模型怎么打造,包括基础模型、行业模型。第二个是大模型的使用,无论是提示词还是相关的场景。第三个是讨论到今天在开源和闭源、社区化发展上对大模型带来的观点和我们的看法。最后我们会看一些具体的,我们认为在未来更务实的场景上的一些思考,以及在大模型结合不同的系统和系统能力上该怎么做。
第一块,可以看到大模型整个训练过程本身还是挺复杂的,分成四个大部分,包括Pretraining、SupervisedFinetuning、RewardModeling和机器学习的部分,包括算法、算力和成本。我们第一步会谈到预训练模型和预训练体系模型,包含多少token的场景和数据。指令式调优,里面该用多少方法消耗多少算力,构建具备我们称为对齐的整个我兴和场景。最后上线之后如何形成整个闭环。这里我们所列举的场景是千亿参数的模型,我们在模型构建的四个步骤和场景下看到整个成本和预估。
回到模型本身,我们到底需要关注哪些?第一个老生常谈的部分是模型参数的大小。我们在所有学术界的论文和场景下都已经发现了,我们发现参数一定是带来智能涌现的充分条件,但是我这里想强调一下是充分条件不是必要条件。是不是在真实的场景中越大的参数越好呢?这涉及到场景和数据本身的结合。从阿里本身的研究来讲,我们会更务实的讲6B和7B以上的模型产生涌现,10—100B之间会有上升,开源的中小模型基本上参数是以60亿参数和70亿参数为主的。
为什么这只是一个充分条件不是必要条件,就涉及到我们对高质量数据的赋能和分析,涉及到预训练参数变大的思考。高质量的数据汇涉及到SupervisedFinetuning、RewardModeling更多的调优数据,带来智能和涌现的提升,这是大家已经认知到的。右边的更关键,提到了必要属性的部分,今天构建的整个模型体系中为什么并不一定是参数越大模型越好呢?本质原因是每个模型特质在不同参数下面所需要构建的伸缩法则是不一样的。像深度学习的大模型,我们看到一个参数的选择它输入的token数和比值下面,每个token数的对比,逐步的看到伸缩法则在20个token的时候,我们可以看到模型更加证明在参数下被充分训练的标志。GPT3的模型只训练了1.7个token,在前一个版本的时候,GPT3整个伸缩法则原则的东西没有被充分选择,但是没有发现1750亿参数应有的智能涌现和场景,我们可以大胆猜测,在早期GPT3的模型下,要么可以把1750亿参数缩小20倍,节省更多的算力和东西,要么扩大在预训练模型中的token数。在未来无论是基础模型还是行业模型,不用盲目追求模型参数大小,而应该思考我们在技术上,从预训练,从一系列的机制上和伸缩法则上做更好的设计和设定,带来更好的性能和性价比。第二块结合核心业务场景,设计任务构建,这是需要整体思考的,这是我们一个整体的思考。
今天大家谈的相对少的,特别在中国的政策下无法大规模做的强化学习训练,目前的强化部分更多依赖于数据和数据排序来做。函数怎么设定?这里包含了大量专有的设计人员、知识人员构建带有自有排序的模式,早期在GPT的整个方法体系下就是大量的技术人员做排序,生成函数和部分,最后应用到了线上的机制,结合线上大规模C端用户对于模型的反馈自动形成反馈提升和模型,本身的标注规模大,训练相对不稳定,并且需要大量的核心算法人才和部分,所以在初期的落地下我们不建议做,并且在当下中国法律法规体系下无法做泛化领域的大规模强化,未来初始化任务结束之后,在专业领域的强化和部分是可以被展开的,这是第一部分。
第二部分涉及到大模型该如何使用,大家知道分为三部分,我们讲的ZeroShot、OneShot、FewShot部分。有三大阶段,第一是预测的部分,比如说我们讲古时白日依山尽,怎么预测出黄河入海流,但是缺少高数据的对齐。第二个在基础模型上要更多做通用领域的对齐,提升基础智能和能力的部分,这个领域最终用到企业和行业,我们需要跟行业本身的数据结合。这里列举了茅台金融财报分析场景,需要有茅台实时财报的数据,需要有金融领域相对专业的场景,从专业领域构建行业模型的三个阶段。
我们把基础模型到行业、企业模型,再到专属模型的三个阶段,做了未来在国内市场、中国市场上的节奏和路径,第一个我们需要有更有竞争力的多参数、多模态的基础能力。第二个我们依托于两个大的能力,第一个是结合预训练,第二个是构建企业自有数据或者行业自有数据的行业模型和体系。再往上这一层,讲到一个领域或者现在比较时髦的词,怎么构建Agent场景,需要跟行业的API、流程、业务做设计,这里面包含了外部接口的设计,包括提示词的设计,以及流程的设计,后面我会列举一些部分展开,结合在基础模型、行业模型再到行业实际应用的体系下完成我们对于模型整个使用的思考和部分。这里面最近大家会比较多的思考,对一个企业和行业部分来讲我们该如何选择开源和闭源。
我们也开源了70亿模型的部分,在未来长期来讲开源模型和闭源模型终将会长期存在,而它所分化的整个领域中是小的、专属的或者小参数的模型,甚至是逐步参数更大的模型,或者社区化一定会发展,因为社区会带动整个技术能力的发展。左边的列表已经有了今天各行各业国内外所有的,我们称为开源模型或者社区化模型的发展,这个过程中社区化的发展是不可阻挡的。结合自己的数据,知道Knowhow的情况下构建自己的模型,长期来看必然会掌握在各个企业大模型逐步转成跟算力一般的基础能力做整体的发展。
是不是在这样的驱使下闭源的模型就没有发展空间和部分了呢?我认为是有的,在专业领域中我们看到对于效能的提升,包括这里从数据的壁垒,算法的壁垒,我们可以举一些例子。比如说金融行业大模型,我认为它存在于相当复杂的场景和体系,是值得今天从基础模型上构建无论是闭源还是开源的基础大模型领域的,因为金融领域足够复杂,从研报,银行的业务,客服等等的业务,有多复杂的下游业务和体系。从今天一个金融量化的角度讲有常规的量化指标也有非常规的量化指标和部分影响这个部分,在大模型角度来讲内容足够丰富。开源必然会更加灵活,成本更低,能够让大家更普惠的使用。
长期来看,闭源模型更多的会走向高效果、高价值,包括高效率的三个方向,这里列举的是当下开源模型不是主流,闭源是主流。过两三年,可能开源模型逐步回成为大家应用的主流和部分,闭源模型会在特殊的领域和行业中体现出我刚才提到的三高领域分化和体系。
最后一个部分讲到在当下务实的大模型,在法律法规,在合规的情况下该用哪些场景。这里包含了问答推理、内容生成、代码生成、文本分析,这是我们在阿里云的基础上在探索的,从助理、客服、内容生成、代码、金融、零售、媒体、能源等等场景看到的整个部分和体系。我们具体列一些我们对行业部分以及深度做的案例和体系,当然在这个之前还是要讲一下Agent,从基础模型落地到行业,我们不是简单的把基础模型应用在场景中,如何把大模型落地到行业和行业本身。这里包含了模型本身需要具备上下文记忆的能力。第二个我们跟各个企业,媒体企业的合作有大量的实时数据,有大量的API接口,这里列举了日成系统、计算系统,需要有更多的API,这个基础上还有业务中流程化的体系,比如说一会儿我会举的例子,拿新闻媒体行业来讲,至少在新闻媒体行业有两个重要的工作,一个是离线信息的收集,第二个是文稿的撰写和场景的书写,所以整个部分要有个内容串联大模型的部分和能力,所以在这个体系下我认为希望要解决实际的问题,对于Agent的设计部分其实是需要依赖的今天我们看到的数据+指令对基础模型的依赖,第二是记忆的依赖,第三个是接口的设计。
阿里云已经落地和即将落地的一些场景:
第一个部分从新闻媒体场景来看,除了要做场景以外,刚才我讲了两阶段的模型和体系,对于右边大家看到的内外部实时数据的接入是第一阶段,通过大模型在海量数据中查找和生成今天看到的核心数据。在这个基础上再来做精准的基于新闻结构,无论是金融新闻还是政务新闻、娱乐新闻的结构生成,一定程度上从大模型两阶段部分完成整个新闻摘要写作的部分,还有对字数、文风的控制。
第二个部分从问答体系中,客服会成为今天首当其冲的部分,在大模型的基础上控制好知识幻觉的基础上,可以更多的支持“yesorno”的问题,提高我们离线知识管理的效率以及客户体验的能效提升,作用于平台上称为一次性解决率的提升。
第三个部分是知识文档问答的增强,这里有一个具体的案例。我们通过一个财报的读取和部分,通过文档检索和整个部分去实时回答今天讲的欧莱雅大的财报体系,这三个我认为是当下我们看到在阿里云上主流的场景,包括我们列举了一些案例和落地的部分。
最后做个总结,在大模型的趋势下,大模型的多结构化和推理成本的降低,今天我们采用MOE的架构还是围绕一个、多个模型,这都是很重要的。第二个开源、闭源将来会很长时间内并行产生,以效果化提升为主。第三个以围绕实际业务落地中,以Agent构建,包括上下文的计算,API的对接,一定会成为未来主流的在企业上对接的三种主要的方式,包括落地的整个性能,我今天的分享就到这儿,谢谢大家。