AI算力大考已至,服务器OS如何“真·好用”丨ToB产业观察
来源:钛媒体
随着AI大模型不断在各行各业中得以应用,AI算力已经有赶超传统通用算力的趋势,有望成为主流算力,这点从新建的数据中心中就不难看出。工业和信息化部副部长单忠德曾在WAIC期间表示,截至5月底,全国规划具有高性能计算机集群的智算中心已达十余个。从全国来看,智能算力在算力总规模中的比重超过了30%。与此同时,我国于2023年一年中先后出台了《生成式人工智能服务管理暂行办法》和《算力基础设施高质量发展行动计划》。预计到2025年,我国算力规模将超过300EFLOPS,智能算力占比达到35%。
如果这个比重还不那么直观,那么从服务器出货量上能看到,更多新建的数据中心承载了智算的业务,IDC数据显示,2023年下半年,中国智算服务市场整体规模达114.1亿元,同比增长85.8%。
如此庞大的AI算力需求自然也带来了很多的挑战。AI算力与传统通用算力相比,并不是简单添加一块GPU那么简单。这里面涉及了从架构到应用复杂的转变。而对于服务器OS来说,AI时代也提出了更高的要求。
如果把服务器比作一个人,那么芯片就是人的心脏,决定了服务器能否提供对外的“动能”,而服务器OS(操作系统)就像是大脑,操控着全身上下所有的器官,虽然我们感受不到大脑的“律动”,但是我们每个举动、每次呼吸都由大脑发出指令才能完成。一台服务器也是如此,操作系统决定了芯片性能能否被释放、数据的调用与存储,抛离了操作系统服务器也不过是一堆硬件设备。
AI算力大考已至,服务器OS如何跟上需求?
随着AI技术的快速发展,服务器OS需要不断适应新的计算需求,进行内核和架构的优化,提升系统的整体性能。中国工程院院士陈纯表示,在数智时代,操作系统的作用显得更为重要,“软硬件体系在不断的创新演变,需要通过操作系统连接多样化硬件与软件,为应用的稳定运行提供保障。例如云计算的调度与弹性,大模型的训练与推理,都离不开一个稳定、安全、高效的服务器操作系统。”
龙蜥社区技术委员会主席、阿里云基础软件部资深技术总监杨勇也曾告诉钛媒体APP,当下绝大多数AI应用都是采用云原生的方式部署的,这种情况下,就不单单要考虑原先基础的操作系统,而是要将AI操作系统、云原生操作系统,以及服务器操作系统统一在一起看,“如果说服务器是一辆汽车的话,那么操作系统就是汽车的底盘,向下要兼容AI服务器中的GPU和CPU,向上要支撑各类AI原生应用。”杨勇如是说,“既要满足好新技术、新应用,又要兼顾好原先的技术与应用,这是AI时代,对服务器OS提出的最大考验。”
服务器OS在为AI提供支撑的同时,也有越来越多的厂商尝试将AI的能力植入到服务器OS中,为服务器OS赋能。在浪潮信息系统软件产品部总经理苏志远看来,如何将AI的能力融入到操作系统之中,打造OSCopilot,实现“AIforSystem”(人工智能支持操作系统),也将成为未来国内操作系统研发方向之一。
苏志远告诉钛媒体APP,对于“AIforSystem”的最佳应用场景,目前来看就是智能的运维助手,“一般情况下,用户对服务器操作系统不会有感知,只有当宕机的时候才会感知到操作系统的存在,”苏志远指出,“如果能将AI的能力植入到操作系统运维工具中,让AI提供预警,以及自动化的运维操作,就能快速解决运维的问题,减少甚至避免掉很多宕机情况的发生,从而提升系统的稳定性和可用性。”
将眼光放的更长远一点来看,龙蜥社区副理事长张东告诉钛媒体APP,未来,操作系统本身有可能成为一个智能体,“现在,操作系统很多操作实际上还是人指挥系统去进行的,未来,通过AI技术的加持,让操作系统能‘自己’做事,完成操作指令,向着智能体的方向发展,这是一个很重要的方向。”张东进一步指出。
智能化的事要一步一步完成,不过“AIforSystem”已经被提上日程了,据苏志远透露,AI操作系统运维工具将是浪潮信息接下来与阿里云联合重点研发的方向之一,“浪潮信息将基于和阿里云多场景、多硬件的优势,在解决好兼容性、稳定性问题的同时,提升操作系统的智能化水平。”苏志远指出。
从“可用”到“好用”,服务器OS还有多少路要走?
服务器OS从“可用”走向“好用”仅仅靠一个智能化工具是不够的。智能化工具只是实现“好用”路上锦上添花的功能,要实现“好用”还是要做好基础。
这其中,稳定性是保障业务连续运行的关键,系统需要具备高可用性、容错性和快速恢复能力。稳定性自然就成了服务器OS最基本的要求,也是“可用”向着“好用”发展的第一步要解决的问题。对此,苏志远表示,在AI服务器时代,“好用”最重要的就是稳定,而达到稳定过程中,最重要的就是兼容性,“很多问题都是由于驱动和硬件兼容性不好导致的。”苏志远进一步指出。
杨勇也有着相似的看法,他表示,从当下行业发展上看,兼容性的问题是首要的挑战,因为它涉及产业链的重组,需要联合服务器厂商、外设厂商、芯片厂商、软件厂商等等,以生态的形式共同推进。
通过龙蜥社区的组成成员也不难看出生态构建的重要性,龙蜥社区中既有浪潮信息这样的服务器供应商,又有英特尔这样的芯片厂商,还有阿里云这样的在云计算方面有着丰富优化经验的云服务商,更是有统信软件这样的操作系统开发公司,完善的生态自然也成为解决兼容性问题的最佳途径。
而在AI时代,对服务器操作系统的“好用”也多了些许诉求。在杨勇看来,AI时代,首先要解决的也是“可靠性”问题,不过这个可靠性与前文提到的稳定性不尽相同。AI场景下,训练模型要使用千卡,甚至万卡的集群,协同工作,在这个过程中,成千上万台机器的协同性,以及单台机器的稳定性都至关重要,“从整体上看,操作系统在其中起到了协同的作用,从单台机器上看,一台宕机会影响整个集群的训练效率,这是大模型时代不能接受的。”杨勇强调。
其次,AI是全链路的事,不仅是集群的协同,从操作系统到应用之间的协同都要做好;再次,当发现停机问题的时候,需要将问题进行数据化、可视化,让服务器做到可以监控、预警,“这种系统的可观测性、可运维性,也是AI时代亟待解决的痛点,”杨勇指出,“如何将运维系统与服务系统结合起来,发挥更大的能力,是服务器操作系统所要解决的问题。”
除此之外,在AI时代,性能也成为了大家关注的焦点。优秀的性能表现也成为了服务器OS的基本要求,包括高并发处理能力、低延迟响应等。“当下GPU算力很贵,但是GPU的利用率却很低,如果通过操作系统的优化,激发更多的GPU性能,既能满足更多的算力需求,又能为用户节约不少成本。”杨勇进一步指出。
总体来看,在AI时代,服务器操作系统虽然已经满足了“可用”的要求,但是离“好用”仍有一段路要走。
仅立足当下,对“好用”的服务器操作系统的定义可以归纳为:在确保基础稳定性的前提下,提高可靠性与性能优化水平,同时还要满足操作系统的数据化、可视化运维。
后CentOS时代,谁能接过开源操作系统社区大旗?
这些要求仅仅依靠一家厂商是做不到,这时候生态的重要性就体现了出来。而生态也是当初CentOS能火爆的重要原因。可是CentOS的模式有一个很大的弊端——只有一家大型企业牵头组织的开源社区,而这也为如今CentOS的停更埋下了伏笔。
一家大型牵头带来的副作用就是,一旦这家企业不行了,或者不想“玩”了,那么这个社区就将面临着“土崩瓦解”,而这对于要求稳定性的服务器OS用户来说,是不能接受。
据开放数据中心委员会(ODCC)发布的《国产服务器操作系统发展报告》显示,愿意留在CentOS体系下的用户仅占8%;而72%的用户有意愿、且正在计划和试点转投国内服务器OS,其中半数以上,都希望在1年内完成这个过渡。
正是有了CentOS的前车之鉴,龙蜥社区采用了更为多元的社区建设模式,核心成员均是来自各自领域的佼佼者,而社区也完全按照贡献值排名,激发了成员参与社区建设的积极性。
据统计,龙蜥社区推出的AnolisOS及衍生版装机量已突破800万套,实现了从开源到商业化的良性循环发展。而就在8月底,龙蜥社区还发布了“CentOS替代计划”、“AnolisOS23生态衍生计划”和“AI应用推广计划”,推动国内操作系统的发展。
提到国内的开源服务器操作系统社区还一个不能不提的,那就是华为牵头的欧拉。作为华为EulerOS的开源延续,OpenEuler社区由华为捐赠给开放原子开源基金会,旨在通过开源社区的合作推动操作系统的发展。与龙蜥相比,欧拉的操作系统是由华为牵头主导,是土生土长的中国开源服务器操作系统社区。这点是优势,但也可能成为劣势,因为一旦“稍有不测”,社区或将重蹈CentOS的覆辙。
据网上数据显示,目前OpenEuler社区已吸引1300+家头部企业、研究机构和高校加入,汇聚16800+名开源贡献者,成立100+个特别兴趣小组(SIG)。累计装机量超过610万套,在中国服务器操作系统市场份额中占据重要地位。
从龙蜥社区与欧拉社区的对比可以看出,两者几乎是平分秋色,共同“分享”了CentOS停更后带来的用户流。
而在北京大学计算机学院教授,副院长、中国计算机学会开源发展委员会副主任周明辉看来,一个社区若想良性发展,必备条件之一就是具备成长性,以一种自由式开源的生态构建为基础,才能获得良性发展的机会。对此,张东也有着相似看法,他告诉钛媒体APP,一个好的开源社区,若想具备长期发展的活力,一方面参与社区的人要在生态里具备一定的广泛性,同时又离不开核心厂商的入驻,“这个核心厂商又不能是一家企业,需要生态上下游都有核心厂商入驻才可以。”张东进一步指出,“并且采用一人一票的模式,避免了某一个厂商完全说了算的情况,同时又在各个环节上确保了话语权,避免了完全自由。”(本文首发于钛媒体APP,作者|张申宇,编辑丨盖虹达)
特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。