壁仞科技合伙人梁刚:大模型训练不仅靠芯片算力,软件生态建设更重要
《科创板日报》7月9日讯(记者陈美)千亿、万亿大模型的底座是芯片和算力,但大模型的训练又不仅是芯片算力。
7月7日,在2023世界人工智能大会(WAIC)启明创投论坛“生成式AI与大模型:变革与创新”上,作为通用计算体系的开发原创性公司,壁仞科技合伙人梁刚博士分享了他对大模型和算力的理解。
加入壁仞科技前,梁刚博士是业内资深大咖。他是范德堡大学电子工程学博士、西安交大无线电技术学士,在英特尔、Marvell,AMD等有过近20年工作经验,主要是从事软件方面的研发和管理。在这20多年中,梁刚博士管理过上千人的工程团队,成功推出了数十款芯片的研发和量产。在过去8年,梁刚博士是麦肯锡资深顾问,从事半导体和软件方面的咨询。
面对目前的算力需求,多数公司使用英伟达芯片,壁仞科技作为国内自研的GPU公司,过去一年已推出BR10x芯片,并且在大模型推理和训练中逐渐起到作用。
梁刚博士表示,首先是从算力和性能上看,BR10x这款芯片能够支持BF16,算力达到512TFLOPS,这在业界是相当领先的。其次在训推一体方面,BR10x支持各种数据精度,比如TF32,BF6,INT,其中INT8算力达1024TOPS。第三是带宽,自主研发的BLINK壁砺能够支持八卡互联,加上IB网卡,壁仞的产品可以支持多机多卡的大环境。
当然,身为工程师的梁刚博士也明白,光有算力还不行,助力大模型训练需要落地,走进市场。
为此,梁刚博士坦言:想让一款芯片落地,光靠算力没有用。过去一段时间,壁仞已做了很多工作:
首先壁仞的孵化软件生态开始逐渐形成。6月30号,壁仞发布软件正式版本(release);从模型上,壁仞跑通GPT-2、StableDiffusion、LLaMa、百度文心等。从框架层面,壁仞已支持了DeepSpeed,HuggingFace和百度文心等框架。
其次,用数据和模型切分。近期,壁仞也已经实现了TP、PP、DeepSpeedZeRo`数据并行,以及Recompute、Offload等的策略和算法。
第三,分布式训练。大模型训练需要很多机器,通讯消耗非常高,所以需要有策略来充分发挥BLINK优势。
此外,梁刚博士提醒说,不管有再好的机器和算力,都会出现个别板卡出现问题的情况。在这一方面,壁仞在做压力测试以及角落案例(cornercases);另一方面,软件上也在开发容错机制,提升系统的稳定性。
当然,最重要是客户的性价比。在梁刚博士看来,对硬件公司来说,除了芯片算力,还要在训练上做到充分优化,尤其是大模型不仅单靠算力优化,还要从分布式角度做调整,最终在训练上优化,帮助客户。”
放眼到整个生态,梁刚博士深知,上面说的硬件算力、优化是一方面,最重要的是生态的建设。”比如英伟达,旗下的CUDA平台助力英伟达成长为AI产业龙头,CUDA平台能便于让更多的技术人员参与开发,为英伟达构建强大生态护城河壁垒。“
对壁仞来说,梁刚博士认为,打好基础是第一步。过去的几年壁仞证明了自己,壁仞是全新的自研架构,第一个芯片到了实验室就点亮了。A0芯片就能量产了,这是十分不容易的。第二是保持相应合作。壁仞必须要跟国内的合作伙伴和客户保持密切合作,让产品不断迭代、不断更新,把事情做出来靠产品说话。第三,大模型对网络需求非常高,壁仞会跟网卡、存储商保持合作。
尽管目前国内软件生态与国外相比还有很大差距,但市场一定要学会包容。从业近30年的梁刚博士认为,半导体行业没有捷径和弯道可做,过程中必须踏踏实实做好每一件事。。
而在构建国内GPGPU生态上,梁刚博士认为,硬件设计的周期是1-2年;软件方面会更长,由于大模型应用带来的紧迫感,相信这一周期会比过去短一些。