首页 首页 人工智能 查看内容

AI时代的高性能计算酝酿新变数?访曙光公司总裁助理兼高性能计算产品事业部总经理李斌

木马童年 2019-6-30 03:45 283 0

超算是一个国家计算能力和经济实力的综合较量,所以每年举行的国际超算大会都是世界各国叫板超算能力的竞技场。上周在德国法兰克福召开的2019年国际超算大会(ISC 2019)上,公布了新一期的Top500榜单,中国以44%的 ...

AI时代的高性能计算酝酿新变数?访曙光公司总裁助理兼高性能计算产品事业部总经理李斌

超算是一个国家计算能力和经济实力的综合较量,所以每年举行的国际超算大会都是世界各国叫板超算能力的竞技场。上周在德国法兰克福召开的2019年国际超算大会(ISC 2019)上,公布了新一期的Top500榜单,中国以44%的份额高居第一,几乎是排名第二的美国的两倍。曙光这次在ISC上展出了其HPC产品——曙光新一代硅立方高性能计算机(以下简称硅立方),完成了该产品的欧洲“首秀”。该产品以高性能、高功率密度、高效冷却而备受关注,单体功率即可达320kW,PUE低于1.04,在展会上备受关注。

目前,全球HPC发展面临新的转型,无论是在技术上还是发展方向上或是在服务模式上都蕴含新的变数,曙光的“硅立方”创新有哪些可以复制的经验?曙光如何看到未来的HPC技术之变?未来的HPC将呈现哪些新的趋势?就相关问题,日前《中国电子报》记者采访了曙光公司总裁助理兼高性能计算产品事业部总经理李斌。

全浸没式相变液冷技术突破能耗困境

一个十万亿亿次的超算中心能耗甚至相当于一个小型核电站,国内某超算中心的年耗电量约为2亿度,电费超过1亿元。如果未来计算力进一步提升到百亿亿次、千亿亿次,那么功耗就将是成为难以逾越的“墙”。曙光的硅立方采用什么思路来突破能耗的挑战?这种液冷技术有没有更大复制范围?液冷对于攻克高性能计算机功耗问题有什么启示?

AI时代的高性能计算酝酿新变数?访曙光公司总裁助理兼高性能计算产品事业部总经理李斌

李斌表示,高性能计算机或者通用的IT设备,它的冷却技术和方案需要从三个维度进行设计:其一是制冷效率。如何高效把热量快速的从IT设备带走,这是要考虑的第一点。其二是节能性。把热量带出去之后,可能需要消耗额外的能耗。其三冷却方案成本和维护,这个也需要考虑。

现在业界的基本技术路线是从传统的风冷散热转向液冷散热。而液冷技术现在也分很多流派,有用冷板间接式的液冷,这个技术在国际上起步比较早,也比较成熟。曙光在这方面投入比较早,在2015年基本就实现了这个技术的量产。现在从制冷散热、效率、节能技术方向上有了更好的选择,就是用浸没式的液冷。在这个方向上有相变和非相变不同的技术方案,“相变”就是利用冷却液的沸腾过程高效的带走热量。在浸没的相变液冷方面,曙光应该处于国际领先地位,浸没式液冷的效率比冷板好,不过目前在浸没液冷技术领域进行投入和突破的厂商并不多。李斌介绍。

既然浸没式液冷的效率比冷板好,为什么采用这个方式的厂商并不多呢?李斌说:“其一是因为难度大。要实现浸没相变冷却有一系列的科学问题和工程问题需要解决。比如所有的元器件要进行浸泡,它的电信号等一系列就会有影响,这跟普通的风冷有很大的差别,需要的不仅仅是物理学,在化学、材料科学上都需要突破。其二是浸没液冷的成本和维度难度大。”李斌透露,曙光去年在美国的SC和今年德国ISC上都展示了新一代风冷板的技术路线,这类产品在国际上也是非常领先的。现在开始研发尝试将液冷技术用在通用服务器上。

目前制冷、散热效率其实已经低近到了一个极限,设备的密度也做得非常高了,全年的冷却PUE曙光可以降到1.04,但依然有很多维度的创新可以做。李斌表示,比如热量利用的如此大的计算中心所产生的热量、热源,可以用作热水源给大楼供暖,给游泳池加热等,在未来,当我们设计规划计算中心就可以把整体的能耗和能源利用进行很好的结合。

高性能计算普及化服务化

计算正在向服务化、云化的方向发生变化,高性能发展也正在高性能计算机到高性能计算技术方向去演变。在这种背景之下,高性能计算机也在朝着通用化、普及化、平民化方向发展,HPC要实现平民化会从哪几个维度会发生变化?

李斌表示,计算领域的大趋势是走向融合,各种技术包括云计算大数据人工智能、高性能计算等界限正变得模糊。而高性能计算机的用途正在从科学计算、工程计算,向面向更多的社会服务,包括数据处理、云化服务方向演变。

李斌进一步表示,这样的融合更多的是从计算机设计方式或者管理运维的方式上进行区别。比如,传统高性能计算机的业务支撑方式是批处理资源方式。而云的方式更强调弹性资源配置,大数据、人工智能可能面向不同业务的处理方式。从计算设备硬件来说没有太大的本质差别,更多能是在管理的方式上。现在我们在设计大型高性能计算机时,已经考虑到这样的资源管理和服务的方式,从而提供更加融合的技术来支撑。事实上,一个传统的高性能计算机有足够强的计算能力和存储能力来支撑不同的业务类型,而现在的一些新技术,本身也是以融合服务为前提,包括高性能计算机也都多分布式存储,这样当我们在做大数据处理的时候,就可以实现对不同业务之间的融合。

人工智能、大数据、物联网等应用需求现在发生很多的变化,这些变化,要求高性能计算技术有怎么样调整才能应用需求的变化呢?

李斌表示,高性能计算机所面对的需求在走向融合和多元化。原来的HPC过去更多的任务处理是偏向离线的,而现在更多的任务处理要从离线走向在线。走向在线,必不可少地要与物联网相关的各种数据采集设备、科学装置、仪器设备实现耦合。计算方式从过去的离线处理,走向更多的在线应用场景,要走向在线必服务方式,与物联网技术耦合就车给必须。这其中的变化有两个关键趋势,一是处理任务和业务类型的变化,二是与终端设备或者物联网设备走向联合。

AI时代的高性能计算酝酿新变数?访曙光公司总裁助理兼高性能计算产品事业部总经理李斌

增强能力加速国际化合作

李斌表示,目前国际上对高性能计算机的定位和方向、支撑服务和服务方式有了一些新共识,也蕴含着一些新的技术架构的变化,同时国际上的竞争强度、热度不断增大。从走出去的角度看,曙光一方面是不断增强实力,希望心无旁鹜的研发,争取在技术创新上有更大的技术突破,另一方面也在积极寻找合作的机会,增强海外的服务和运维能力。

在这次ISC上,许多来自美国、英国等国外合作伙伴以及展览的参观者都对硅立方给予了很高的评价。来自俄罗斯的RSC 的COO Alexey表示,曙光的超算已经达到全球领先水平,我们非常愿意与曙光合作,为俄罗斯用户提供先进的解决方案。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

计算能力 计算机 服务模式 计算中心 云计算 大数据
0