华映资本邱谆:大模型行业垂直分层未完全发生,更关注端到端的应用公司

2024-06-27 11:13:59 - 华映资本

来源:华映资本

理想与现实、科技与人文、探索与深耕、传统与变革,每一个都指向年轻人关注的热议话题。都说人生是旷野,但是实践发现人生更像是海面,时而风平浪静、波光粼粼,时而巨浪滔天、风浪不止。Waver们没有在浪潮中随波逐流,而是靠自己的力量迎浪而上。

6月14-15日,36氪WAVES新浪潮2024大会于北京顺利举办。在主题为《头上的星空,脚下的土地》的论坛上,华映资本海外合伙人邱谆与BV百度风投执行董事温永腾、元璟资本管理合伙人刘毅然、光速光合合伙人朱嘉、国方创新合伙人张治、暗涌Waves分析师郭允骁一起探讨了AI应用层的投资风向。

华映资本邱谆:大模型行业垂直分层未完全发生,更关注端到端的应用公司

在邱谆看来,整个大模型行业现在还处在初期阶段。“目前市场上普遍认为基础层没有应用场景,而应用层又没有门槛,所以陷入一个僵局。但大家忽视的是,现在这与当年互联网的发展有所不同——垂直分层还没完全发生,平台与应用处于非解耦状态。核心是因为目前还无法完全区分最终的任务结果究竟是受基础层预训练数据还是应用层私有数据的影响。”在这种认知驱动下,邱谆更关注垂直整合,或端到端——即公司需具备数据层到底座层再到应用层的全栈能力。

华映资本邱谆:大模型行业垂直分层未完全发生,更关注端到端的应用公司

以下是现场探讨实录,经华映资本与36氪整理删改:

华映资本邱谆:大模型行业垂直分层未完全发生,更关注端到端的应用公司

基础层与应用层之争

郭允骁:非常感谢大家不远万里来到「WAVES新浪潮2024」现场,请大家进行自我介绍。

邱谆:我是华映资本邱谆,华映有110亿人民币的管理规模,投资了超过260个项目。我自己曾在美国人工智能方向求学,毕业后在硅谷工作,曾是腾讯云的专家架构师,现在在华映负责AI投资和出海方向。

郭允骁:主题是头上的星空、脚下的土地,这句话非常恰当地形容了AI投资的务实派。有的参与了大模型的投资,有的了解应用层和基础设施。大家如何衡量基础设施层和应用层的投资机会?

邱谆:华映在基础层和应用层都有布局,基础层算力侧投资了壁仞、本源量子等,数据侧投资了星尘数据和天云数据,应用层投资了金柚网,知呱呱等,这是我们目前的布局。我认为,整个大模型行业现在还处在初期阶段。

在座有很多创业者和投资人,我观察到一个现象:大家普遍感觉基础层没有应用场景。做底座模型的都被问应用场景是什么,所以底座层是比较纠结的。至于应用层被问的,则是门槛在哪,这也是大家比较纠结的。做应用层的创业公司,如果直接调用GPT的话,不要说在中国,即便是在美国也会有问题。因为如果只是调API,GPT-更新,比如到GPT-4的时候,应用层很多就被覆盖了。

所以现在都比较分裂:基础层没有应用场景,有应用场景的又没有门槛。是什么造成了这样的现象?其实我们思考一下,还是有一些规律可循。现在的大模型与当年的互联网有所不同,硅谷的AI从业者有一个说法:"垂直分层还没有完全发生"。

现在基础层的人都在做应用,最好的例子就是OpenAI,OpenAI做底座大模型GPT,但它的应用层ChatGPT却是目前最好的应用,大家可以说出来的唯一杀手级应用还是ChatGPT。而做应用的人现在也都有底座,也需要做底座,尤其在硅谷。

我们可以思考一个问题:基础层和应用层的分层为什么没有发生。要知道当年互联网的基础层与应用层是分工非常明确的,基础层不提供内容,比如互联网的基础层是协议和浏览器,内容都是应用层(也就是网页)来提供。

但在大模型生态中,用户在使用GPT时(也就是应用层的人在调用GPT接口时),GPT已经做了预训练,大量的内容都在预训练的语料中了。你调用GPT并将一个界面提供给终端用户,终端用户提问题得到一个回答,这个回答中有多少是GPT通用语料训练出来的,又有多少是你的私有语料训练出来的,不容易区分。

比如一家律所,提供法律专业知识,调用了GPT,相当于这个律所赋予了模型法律专业知识,但GPT给了模型历史、地理、数学、物理等所有的基础知识。模型回答问题时不太容易区分究竟是法律知识还是基础知识在起作用,这就造成平台和应用层处于非解耦的状态。

所以单是应用层的创业是危险的。硅谷和国内有很多愿意在应用层创业的创业者,但我们现在看到的、能成功的纯应用层公司很少,有长期存在价值和护城河的企业都是有底座能力的,有底座大模型训练能力才能充分利用私有数据,如果只是作为检索增强RAG用的话,其实门槛不高。

郭允骁:刚刚聊了很多基础设施层与应用层的内容,哪些是相对更有投资价值的领域?今天的宣传片用到了一系列文生视频,几位也投资了文生视频的公司。你们会觉得文生视频已经进入到某一种阶段了吗?

邱谆:我们更关注端到端,因为垂直分层尚未完全发生,不垂直分层的意思就是需要垂直整合,或是端到端——数据层到底座层再到应用层,这些都得具备。

如果创业公司没有私有数据,大部分投资机构在投资时肯定都会很犹豫。现在很多应用开始只是调用API接口,再提供服务给终端用户,然后才开始有私有数据,这时问题就来了——怎么真正地将私有数据训练到模型中去。这其实是非常大的问题。

在座有想创业的朋友可以下来找我交流。我经常往返于国内与硅谷,发现硅谷有很多拥有数据的公司也都不知道怎么训练,如果只做一个向量数据库再用RAG,这个企业的价值点就变成了用户,而非商业化的公司,商业化公司需将服务提供给终端用户,这很难。如文生视频公司,要看有怎样的私有数据可以继续训练,这非常难。不管做微调还是继续训练,门槛都非常高。

文生视频看起来像是一个应用层的东西,但其实是一个基础层的东西,这其中存在迷思。Sora其实是在底座做的,而非应用层。其实多模态大模型,所有的能力都在底座,不管是文生代码,还是文生硬件操作,即现在所谓的具身智能,要真正实现自主智能体功能,这都是门槛。创业公司要从底座的自主模型和自主数据集上着手才能实现多模态,才能实现包括像文生视频,文生代码,文生硬件模态,文生蛋白质结构等等很多其他多模态。

华映资本邱谆:大模型行业垂直分层未完全发生,更关注端到端的应用公司

大模型商业化之路

郭允骁:大家提过商业化,包括搞定一些B端的客户,怎样拥抱商业化,搞定PMF的问题,这也是AI近一段时间讨论非常热的东西。大家怎么理解AI应用方面的PMF问题,可以结合自己的情况具体的说说PMF怎么达到的。

邱谆:ToC肯定还得看在线时长,其实现在看到的问题是大部分的ToC产品都在用户尝鲜阶段,用户被投流吸引过来,之后用了几天、回答一些问题以后,基本上就没太多留存了,也没有太多在线时长,这说明了PMF还是摸索阶段。

ToB则复杂很多,第一种是ToB应用,就是直接给公司解决销售、HR等场景的问题;第二种是基础设施infra,其实更像工具,这非常多,不管是解决算力问题还是网络优化的等等;第三种则是底座大模型作为一个平台,在其之上再生成产品,就像苹果的IOS,IOS的PMF是找到了平台的位置,上面衍生出来很多App,IOS自己是App的底层,支撑所有App而不再只是简单的工具。

这三种不同的ToB形态都需要不同的PMF摸索,现在的状况是还在摸索之中,我们现在可能在任何的一个时间点上。ChatGPT在C端与B端的摸索也都没有完全完成。目前还没有第三方公司完全利用GPT平台变成一个类似Uber的大应用,IOS可以在之上生出Uber或微信这样大的第三方商业公司。

OpenAI扶持了GPT生态,但更新到GPT-4的时候又杀死了很多。所以OpenAI的PMF也在寻找,大家不需着急,趋势一定是对的,还有很多机会。

如今的时间点有点像互联网在浏览器出现之前,当浏览器出现之后大家认为互联网就是网页。但其实互联网在浏览器之前还有十年的时间,那时的应用是FTP等,应用公司无法通过网页将服务提供给用户,只能把内容放在FTP服务器,用户利用FTP客户端下载文件,继而访问内容。还有电子邮箱,存在了十年的时间,直到www出现以后,才成为了了真正的杀手级应用。我们今天在大模型时代所处的阶段,有几分像已经有了FTP和电邮的时期,ChatGPT可能是电邮,创业者在这个阶段还是可以做很多布局和准备的。

郭允骁:“年轻”是WAVES的主题,很多人说AI现在是一个属于年轻人的机会,大家怎么看在AI领域创业的年轻人?大家会在投AI项目时更倾向于年轻人团队吗?

邱谆:这代年轻人是原生的大模型一代,今天我认识的年轻人在学校都直接用ChatGPT,很多人已经在利用提示词思考,ChatGPT是一个生产力工具,很难被禁止。

计算器和计算机出现的时候,帮助了年轻人做很多事情,学校不能就强制年轻人不上网,或者不能利用计算器。利用ChatGPT也是一个技能,但现在的问题是年轻人很多时候对底层的内容不愿深入思考,我之前参加过一个圆桌,问在座的年轻人,有谁在使用GPT,大家都举手,再问知道GPT三个字是什么,就鲜有人知了。

GPT每一个字母的改变都是年轻人巨大的机会,如"G"(生成式)是一条新路线,年轻人可以改变它,不一定完成生成式去做现在的事情。又如"T"(Transformer)这个字母,现在很多模型都试图做不同于T的模型,这些对年轻人都是巨大机会。当年谷歌这么大的巨头也不认可GPT路线,OpenAI最初也不认可,而是一个年轻实习生坚持走这个技术路线。所以年轻人不仅是要用GPT,更要知道GPT代表什么,并且尝试掌控和改变它。

今日热搜