继核弹工厂后,黄仁勋又盯上了云厂商

2023-08-22 12:31:21 - 亿欧

继核弹工厂后,黄仁勋又盯上了云厂商

在扶持类初创云服务企业的同时,英伟达也在不遗余力的建设自家云服务。

文|番摊123

十几天前加州洛杉矶举办的“2023年世界电脑图形会议”(SIGGRAPH 2023)上,“皮衣教主”黄仁勋向全球展示了自己的“核弹工厂”,再次向世人证明英伟达的相关新闻从不冷门。几乎与SIGGRAPH2023同时的,来自美国的一家初创云厂商CoreWeave也搞出了不小的动静。

本月初CoreWeave宣布融资23亿美元,约合168亿元人民币。众所周知的一点是要谋求融资就需要有抵押资产,令人惊讶的是CoreWeave用作抵押的是其名下的GPU。CoreWeave的真实想法未必与英伟达一致,但此时的老黄或许在想,既然能让云厂商们乖乖的当小弟,何不更进一步呢?毕竟现在谁有英伟达GPU谁就是最红的云厂商,那么眼下谁有最多的英伟达GPU呢?

继核弹工厂后,黄仁勋又盯上了云厂商

01

GPU决定话语权

在大模型浪潮兴起的半年多里,GPU俨然成为了一种硬通货,宛如真金白银。而CoreWeave能以此为抵押,主要在于它曾经的身份:北美地区最大的以太坊矿工。最多时它曾投入超过五万台GPU用来挖矿,但在面对挖矿的一系列问题,特别是这种行为本就不可持续后,它就把目光转向AI等对算力有极大需求的领域,并在ChatGPT上线之前就购买,囤积了大量英伟达的GPU。

彼时GPU的产能还算充分,远没有现在这样供不应求。同时也正是因为这种囤积居奇,CoreWeave自称是世界上唯一一家可以大规模提供H100算力的企业,不知不觉间就摇身一变,成了一家“云厂商”。

按照CoreWeave的说法,它的GPU供给已经超越了市面上所有云服务巨头,包括谷歌云、亚马逊云和微软Azure等一众大厂和巨头,听起来有些不可思议但这就是事实。

按照传统观点,要提供云服务先要构建数据中心,这就需要极大的成本投入,还需要精巧的空间、能源和散热设计以及完美无缺的软硬件协同等等配套设施,一般来说,能有财力物力完成这些建设的只能是巨头,而一家成立仅数年的初创公司是不可能做到的。

继核弹工厂后,黄仁勋又盯上了云厂商

前面说过CoreWeave曾经是北美地区最大的以太坊矿工,此外它还有一个身份:英伟达最忠诚的小弟,对英伟达的认可堪称信仰级的顶礼膜拜,同时它对“数据中心”的理解也与众不同。

过去多少年来数据中心都由CPU构成,侧重通用计算能力,赛道先后被英特尔和AMD(超威半导体)的芯片把持。但现在的数据中心则强调并行计算,需要更大的内存与带宽,以及将所有的加速计算单元密接的能力。

黄仁勋对这种变化有个说法叫“数据中心现代化”,他认为这是一个将花费至少十年的工程。这项工程的启动预示着整个数据中心的一切--包括建构方式,软硬件协同,甚至电源和散热结构等等基础设施--都需要重新设计,直接在一夜之间改变了全球的云服务规则,供应商也重回同一起跑线,针对CPU设计的前代数据中心方案几乎全部沦为废纸。

CoreWeave的这轮押宝非常精准,不仅能提供庞大的H100算力,并且比其它云服务更快的同时费用还低了不少。很大程度上得益于它是英伟达最忠诚的小弟,很早就实践了黄仁勋有关数据中心的愿景,即数据中心正在发展为加速计算,而紧缺的算力则通过云供应。

继核弹工厂后,黄仁勋又盯上了云厂商

02

英伟达云实力几何?

虽然芯片、GPU现在很抢手,但英伟达一定是乐于见到这般光景的。在扶持类初创云服务企业的同时,英伟达也在不遗余力的建设自家云服务。亲自下场做云的优势有很多,最明显的是英伟达不可能担心GPU断供。

马斯克之前曾在公开场合说,现在要买GPU比买毒品还难,而CoreWeave的出手阔绰也和英伟达的信任有关,今年四月CoreWeave的B轮融资中,英伟达也曾积极参与其中。

不过以英伟达的能量来说,仅仅投资一些初创公司收小弟显然不够,AIGC和大模型浪潮的兴起,最终促使英伟达的亲自下场。

今年三月时,英伟达推出了自己的云服务DGXCloud,年中时正式上线。顾名思义的就能看出它直接利用了英伟达DGX超级电脑的能力,云的每个实例均配备八个H100或A100GPU以及640GB内存。这项服务目前采用月租形式,费用近四万美元。

当然,相比直接买一台DGX服务器20万美元的价格来说已经便宜了不少,但也有许多人表示,微软的Azure云服务,同样是八个A100GPU,价格还不到两万美元,差不多只有英伟达的一半,还有什么理由选择英伟达呢?

继核弹工厂后,黄仁勋又盯上了云厂商

原因倒也不难理解,因为英伟达的云服务不仅包括算力,还包括一整套AI解决方案。

DGXCloud里集成了两项服务,BaseCommandPlatform(基础命令平台)和AIEnterprise(初创企业专属AI服务)。

前者是一个管理与监控软件,不仅可以用来记录云端算力的消耗量,整合云端和本地算力,还能让用户直接通过浏览器访问DGXCloud。

后者则是英伟达AI平台中的软件层,包含几千款软件,提供各种预训练模型、AI框架和配套工具,简化端到端的开发和部署成本。

此外,DGXCloud上还有AIFoundations服务,让企业级用户可根据用自家的数据,特别定制自家专属的行业垂类大模型。

在这套组合拳的助力下,DGXCloud的训练效率比传统的云服务明显高了两到三倍,也成为了DGXCloud与传统云服务最大的差异化优势。它将英伟达两方面的强项完美结合:丰富的AI生态和强大算力。对于英伟达来说,“软件即服务”(SaaS)这个现在人所共知的标签应该改成“软硬件一体即服务”,可以说DGXCloud是集中展现了一个硬件厂商向上垂直整合的能力天花板。

继核弹工厂后,黄仁勋又盯上了云厂商

03

老黄的心思

如果认为仅靠一个DGXCloud就能让整个云服务赛道重新洗牌,未免又有些过于天真。有一个颇为有趣的事实:DGXCloud首发在甲骨文的云服务上,微软和谷歌紧随其后,而英伟达与这些云厂商合作的方式,则是先把GPU卖给这些云合作伙伴,然后再租用这些硬件以便能运行DGXCloud。一碗饭分两次卖还收两次钱,外人还心甘情愿的花钱,不愧是你英伟达。对此黄仁勋的解释是“我们让客户使用我们的计算平台并受益,而客户通过将我们的计算平台置于云厂商的云中而受益。”

如果只听老黄一人说,这的确是个皆大欢喜的双赢结局,然而这可能只是他一贯的讲话风格,仅此而已。最明显的一点,英伟达与其他企业面对的是同一批客户,彼此谁不知道谁?

十几天前的SIGGRAPH2023上,老黄曾官宣与HuggingFace的合作,接着又发布了名为AIWorkbench的服务,这些都是在帮助用户创建和测试预训大模型,其背后的算力支持自然都少不了DGXCloud的支持。

但是这种行为势必影响到英伟达和其他云厂商的关系,比如谷歌、微软和亚马逊,它们同时也是英伟达的大客户,英伟达推广自有云服务势必会动它们的蛋糕。

同时英伟达还不用担心芯片与GPU断供的问题,这么看来英伟达都不只是在摸老虎屁股了,简直就是虎口夺食。

继核弹工厂后,黄仁勋又盯上了云厂商

这一切别人或许不知道,黄仁勋不可能不知道。他曾公开表示“一个恰当的云服务组合比例应该是10%的DGXCloud加上90%的公有云”。

换言之,DGXCloud在黄仁勋的眼里并非传统云厂商的对手或威胁,而是合作伙伴,而这又是因为DGXCloud可能在很长时间内都只能维持一个较小的市场份额。

虽然老黄一说到数据中心业务量就是“订单多到不可思议”,但要注意的一点是一旦大模型落地部署并实现ChatGPT或类似的商业化模式,其推理成本将随着用户规模的提升而迅速指数级升高,由此导致的算力需求也将水涨船高,甚至比训练大模型的还要大十倍百倍。

此外DGXCloud如果作为一种纯竞品上线或许会占领可观的市场份额,但势必加速其他云厂商摆脱对英伟达的依赖,它们本来就已经很不爽“英伟达税”了,都在铆足劲自研芯片。

而从英伟达的角度来说,全力投产DGXCloud就一定能保证英伟达当前利益最大化吗?也未必,与苹果类似的,英伟达也是无厂半导体企业,自家团队负责研究和设计新产品并销售产品,具体的制造则由台积电等代工厂商完成。这种模式使得英伟达和苹果控制成本,保持利润的功夫都非常精到,虽然常被外人讽刺为“挤牙膏”。

还有一点经常被忽视的,前面提到过黄仁勋口中“数据中心现代化”将花费至少十年的时间,而今年才是这个周期的第一年。

现在英伟达和其他云厂商间似乎维持了一种平衡,至少看起来是这样,但很多时候平衡就是用来被打破的,尤其是英伟达也参与其中的时候。

继核弹工厂后,黄仁勋又盯上了云厂商

今日热搜