复兴路上 · 亲历者说 | 超算:我们干成了“世界第一”

2024-10-01 10:40:02 - 微博财经-财道工作室

来源:@中国经济周刊微博

《中国经济周刊》记者郑雪|北京报道

科技兴则民族兴,科技强则国家强。

超级计算机的发展关乎国家的科技未来,它是计算机领域“皇冠上的明珠”,是衡量一个国家科技水平的重要标志。

作为大国重器,超级计算机多用于国家高科技领域和尖端技术研究,如航空航天、天体物理研究、气象预报、潮汐预报等,其重要性不言而喻。

超级计算机的运算速度有多快?以我国自主研制的首台千万亿次超级计算机“天河一号”为例,其峰值运算速度为4700万亿次/秒,60亿人需要算一年的问题,超级计算机一秒就可以算完。

回顾中国超级计算机的发展史,“玻璃房”是无法被遗忘的过去。20世纪80年代,世界超级计算机技术飞速发展。西方国家长期对中国采取多边出口管制政策。中国虽花了高价从美国购买超级计算机,但相关性能受到阉割,设备需要放置于独立的机房,机房钥匙和启动密码由美方掌握,上机需要美方人员审核监督。

关键核心技术很难买到,中国要有自己的超级计算机。

1978年5月,国防科委在北京召开巨型机方案论证和协作会议,确定该机代号为“785工程”,我国正式启动超级计算机研制工作。

一穷二白是当时再真实不过的写照。技术落后、资料匮乏,但拦不住下定决心攻关的科研人员。“巨型计算机之父”慈云桂更是立下军令状:“就算是豁出这条老命,也要把中国的巨型机搞出来。”

1983年12月,我国第一台亿次超级计算机“银河一号”研制成功,中国成为继美国、日本之后,第三个能独立设计和制造超级计算机的国家。

以“银河一号”为起点,多方支持之下,中国超级计算机一步一个脚印,踏上自主创新、不断超越的征程。

银河、天河、神威等系列超级计算机产品逐渐大放光彩,国产超级计算机的运算速度也实现了从千万亿次到亿亿次,再到百亿亿次的突破。

2010年,“天河一号”摘下全球超级计算机500强排行榜(以下简称“TOP500”)的桂冠;2013年研制成功的“天河二号”标志着我国在超级计算机领域已走在世界前列;采用全自主创新的天河新一代超级计算机运算速度达到百亿亿次。2016年6月,我国第一台全部采用国产处理器构建的超级计算机“神威·太湖之光”,以超第二名近3倍的运算速度位列TOP500排行榜第一。

“神威·太湖之光”也是世界上首台峰值运算性能超过每秒十亿亿次浮点运算能力的超级计算机,曾获得高性能计算应用最高奖“戈登·贝尔奖”。

超级计算机发展已40余年,在一代又一代科研工作者的努力之下,中国的超级计算机已经实现了从追赶到并跑,再到部分领跑的跨越。

复兴路上 · 亲历者说 | 超算:我们干成了“世界第一”

孟祥飞(右二)和团队一起讨论技术方案

亲历者:孟祥飞国家超级计算天津中心党组书记

2009年,博士毕业的我加入正在筹建的首个国家超算中心——国家超级计算天津中心(以下简称“天津超算中心”),参与研制、部署我国首个排名世界第一的超级计算机“天河一号”相关工作。这段经历让我倍感骄傲和荣幸。

随后,我又参与了超算的“二次创业”。十年磨一剑,国际真正认可了我们在超级计算领域取得的成绩。

目前,我国超算已经实现了从追赶到并跑,再到部分领跑的跨越,不仅在于技术,更在于软件和应用的突破。相关成绩离不开一代又一代科研工作者的努力,更离不开科研工作者志气、骨气、底气的传承。

复兴路上 · 亲历者说 | 超算:我们干成了“世界第一”

2022年,孟祥飞在公开活动中介绍中国超级计算机的发展历程。

没想到我们竟干成了“世界第一”

2006年,我在天津南开大学攻读理论物理博士,相关课题研究需要强大算力支撑,但当时国内并不具备这样的条件。后来在国家留学基金委的支持下,我前往美国学习深造。

美国创新能力的平台和环境让我感受颇多。到达美国学习的第二年,我所在的实验室在理论物理领域的国际年会上共发布4个研究成果,其中两个半由我主要完成,当时非常有成就感。但同时我也看到了另一个问题:美国机构的署名位列第一,我们所作的贡献实在是给他人锦上添花。

学业结束之时,美国导师希望我留美。迷茫之时,一天散步的路上,我想起南开老校长的“爱国三问”,感觉到作为一个中国人,还没对自己国家的创新发展作出贡献。我决定回国,不管干多干少,都是我们自己的。

2009年,我加入天津超算中心,参与“天河一号”的研制和中心建设工作。

当时面临的挑战不小,我们并未选择当时主流的环形架构体系路线,而是采用CPU和GPU相结合的异构融合计算体系结构来做超级计算机,我们是这条路线的“第一人”。

其实,相关研究工作从2007年便已开始,为了完成相关任务,整个研发团队选择“闭关”,通过关键底层技术,如软硬件设计、操作系统、编译器、软硬件的协同调度等,验证了我们的方向是正确的。

2009年夏天,我们启动基础环境建设和整机系统安装工作。我们需要完成上万根光纤、上吨重机柜的部署和安装。在接近40℃的房间里,累了就睡在地上,醒了再接着干。设备安装过程中,有些快要退休的老专家,也在一线跟我们拉光纤、搬机柜,让当时的我受到了教育。

就这样,我们用了7个月左右的时间,完成了别人要一年半以上时间才能完成的部署任务,中国首台千万亿次超级计算机“天河一号”诞生了。

2010年11月,全球超级计算机500强排行榜公布,“天河一号”勇夺第一。

消息传来已是晚上,我正和几个同事值班,听到这个消息之后,非常激动兴奋,从来没想到我们的团队竟然干成了世界第一的工程。我和同事一起振臂高呼之后,绕着我们“天河一号”跑了几圈,对于平时淡定的我来说,已经很是“超纲”了。

“二次创业”让中国超算真正站稳脚跟

但很快,“中看不中用”的质疑接踵而来。国际专家质疑我们造了个“跑车”,只是为了快而快;国内也有人质疑我们造了个大型“游戏机”。

原因是,超算技术虽然突破了,但当时也面临着挑战:一是当时的超算应用基础不足,二是软件层面、算法模型尚未有所变化。

对我们来说,真正难的还是要实现应用创新的“二次突破”,即把超算真正转化为创新力和生产力。

“二次突破”交到了我们年轻团队手中。作为应用研发团队的负责人,面对质疑情绪容易“上头”的我立了军令状:干不好“天河一号”的应用,我卷铺盖走人。

我们打造了售前、售后、研发的全方位团队,带着售前团队出去摸需求、做推广,负责超算系统、能力、创新的推广工作。我们坐着绿皮火车每年跑几十个城市,开上百场报告会或者交流会,让大家了解超级计算机。

售后、研发团队主要开发超算的技术服务能力,摸清实践和产业需求,用我们的超算平台解决需求,或者根据需求重新研发运行软件或者模型,以解决科技创新和产业的问题。

正是过去这些年,我们把超级计算机打造成了能够算天、算地、算人的大国重器。

算天,应用于诸如航空航天飞行模式、天气预报预测等。算地,应用于石油勘探、大坝抗震分析等。算人,可应用于药物研发、大规模基因数据的分析。

算力真正转化成了创新力和生产力,实现了二次创新,各类生态自然而然涌现出来。围绕超算发展,国内芯片、操作系统、服务器等领域涌现了一大批信息技术企业,为中国信创产业发展奠定了基础。

“二次创业”让中国超算真正站稳了脚跟。从2010年以来,十年磨一剑,国际范围内真正认可了中国在超算领域取得的成绩。

现在来看,中国超算的发展体现了三个“气”:

志气,“天河一号”搭载的异构融合计算体系结构成为世界第一并引领国际超算潮流,体现我们向前迈进、勇争领域前列的志气。

骨气,刚起步的时候我们一穷二白,前辈们接受这个任务并立下军令状,挑战不可能。

底气,全自主创新的天河新一代超级计算机,让我们在高度竞争的超算领域更有底气。

当然,超级计算也面临着新的挑战:摩尔定律面临终结挑战,计算范式出现了变化;人工智能快速发展,需要大规模低精度混合计算支持,超算需要思考如何与智算融合;此外,量子计算兴起,未来超算需与其协同发展。当下,我们在设计新一代超级计算机的时候,已经提前考虑这些问题了。

(本文刊发于《中国经济周刊》2024年第18期)

今日热搜