MLPerf成绩冲入世界前三,服务器独角兽宁畅如何做到?❓❓

小青爱吃草2021-07-24  219

💥️智东西(公众号:zhidxcom)⭐

💥️作者 | 贞逸

💥️编辑 | 漠影

当人们认为服务器行业格局已定时,一位年轻的挑战者“宁畅”出现在我们视野。

这家成立仅18个月的服务器公司,今年7月初在一众老大哥聚集的行业顶级赛事MLPerf AI基准测试中突出重围,在MASK R-CNN、U-NET3D两个AI场景中拔得头筹。

业内资深分析师将宁畅喻为服务器独角兽,媒体更将其与行业龙头浪潮进行比较研究。

宁畅为什么能夺冠?❓❓宁畅又是一家怎样的公司?❓❓

带着这些疑问,智东西采访了宁畅相关负责人。经深入沟通,我们发现一场变革正席卷国内服务器市场。

💥️一、宁畅凭什么夺得MLPerf冠军?

近日MLPerf发布基于Training V1.0 最新标准测试结果。宁畅AI服务器X640 G40和X660 G45,分别以48.43、28.64成绩,取得固定任务(closed)⭐赛道,单机服务器系统的MASK R-CNN、U-NET3D两项AI场景世界性能冠军。宁畅单机服务器系统AI性能冲入世界前三。

MASK R-CNN测试结果

U-NET3D测试结果

去年参加MLPerf Training 的组织只有9家,今年增长到了13家,不管是MLperf 中的常驻会员NVIDIA、 Intel、Google;还是新入场的Habana,GIGABATE,Graphcore等厂商都实力雄厚。

宁畅作为创业公司,在八个赛道中能取得两项单机服务器系统世界冠军,核心依托的是过硬的产品研发能力。

💥️1、全栈研发破解“木桶效应”

宁畅介绍,随着AI技术不断发展,各大厂商都在发力AI服务器,行业竞争激烈。

AI服务器是相对复杂服务器产品,其性能遵从木桶效应,计算模块、存储模块、网络模块,散热模块等任何一个模块出现短板,都会影响整体性能。

正因如此,在单机服务器系统领域,能参加MLPerf Training测试并取得冠军成绩的初创企业极少,目前除宁畅外国内还没有第二家初创服务器厂商。

宁畅虽然是初创公司,但团队成员可谓是行业“老兵”。宁畅团队成员在服务器领域的平均工作经验超八年,核心员工不低于15年。

此外,宁畅具有全面的产品、技术与工程平台,从标准规范到BIOS软件设计,再到散热、电信号的模拟仿真,以及自动化压力测试,宁畅均具有全栈技术研发能力。

宁畅全栈研发平台

这使得宁畅的AI服务器整体性能强劲,在完成同等量AI模型训练任务时,可以“先人一步”。

如宁畅X640 G40是兼备训练与推理的全能型AI服务器,具备海量存储扩展能力,最大支持24块3.5寸硬盘。强劲性能、海量存储,使得X640 G40在训练MASK R-CNN模型时,一秒可完成57000张图片分析,以及570余次训练迭代。

X660 G45是高性能AI计算平台,GPU之间采用高达600GB/s 的NVLink总线高速互联。每个GPU上还可搭配专属的200G HDR高速网络和U.2高速缓存,在训练U-NET3D模型时,一秒可分析5040张X光照片,这是单机服务器的世界极限处理速度。

X640 G40和X660 G45

值得关注的,除MASK R-CNN、U-NET3D两个赛道外,在比较同功耗的GPU配置下,宁畅X660 G45在DLRM(推荐系统)⭐、SSD(目标检测)⭐固定任务赛道中,亦取得最好成绩。同GPU功耗配置下,宁畅其实获得的是八大赛道的四个冠军席位,取得数量同样是世界第一。

X660 G45在DLRM的成绩

X660 G45在SSD的成绩

除在MLPerf中获得世界第一,在国际计算机性能标准化评估组织(Standard Performance Evaluation Corporation,简称SPEC)推出的计算系统测试工具SPEC CPU2017中,宁畅R620 G40服务器,亦取得诸多优异成绩。

💥️2、多次获得MLPerf、SPEC世界第一

在2021年6月的SPEC CPU2017测试中,在同CPU配置下,宁畅R620 G40服务器,从众国际厂商产品中脱颖而出,打破整数与浮点数、并发与单任务的基准值与峰值8项性能纪录,夺得世界第一。

宁畅R620 G40服务器

而在宁畅公司创立的2020年,宁畅R620 G30服务器就取得24项SPEC CPU2017世界性能第一成绩。

宁畅介绍,SPEC CPU2017是计算密集型测试基准,主要考验的是服务器系统的CPU、内存、操作系统等方面的性能水平。

SPEC CPU是长时间高压力的计算性能测试,CPU要维持高频工作,对服务器主板供电、散热都提出很高要求。

宁畅服务器采用先进散热系统,基于智能调速设计并结合Firmware优化,能保证CPU长时间工作在高频而不降频,这是保障SPEC PCU性能的关键所在。

在内存方面,影响SPEC CPU得分是内存的时延指标,通过优化,宁畅产品能做到高带宽的同时保证低延迟。

在R620 G40 中,两颗CPU之间数据最远端跨节点的访存延迟只有48.6ns(纳秒)⭐,相比行业同等标准快了将近一倍。

在操作系统层面,主要是优化内核参数。

操作系统内核参数较多,每一项要找到比较优化的值,既耗时又费力;宁畅采用自动化优化工具对内核参数进行批量优化,使得宁畅产品能在短时间内优化更多的内核参数。

💥️二、服务器独角兽成长之路

宁畅优异的测试成绩,引起行业分析师的关注。

电子信息产业研究中心资深分析师袁钰表示,宁畅在AI加速服务器上的惊艳表现,足以说明其巨大的潜力,是近年来少有的服务器领域“独角兽”型企业。

而从宁畅对外公布的成绩来看,其成长速度确实惊人。

💥️1、成长迅猛

据宁畅公司透露,其创立仅12个月,就有近千家企业、用户采购宁畅服务器产品。并收到定制咨询350余次,累计落地服务器定制方案170项,宁畅用户已覆盖互联网、金融、电信等数十个行业,出货量以万计。

宁畅速度

而根据国际数据公司(IDC)⭐发布的《中国半年度加速计算市场(2020下半年)⭐跟踪》✨报告显示,在AI加速器市场,宁畅公司的市场占有率已跻身中国前五。

2020年中国加速器市场份额

对于创立初年的优异表现,宁畅总结是对客户需求的准确把握并提供定制化方案,让宁畅成为深信服、Ucloud、苏宁科技集团、华数传媒等知名企业的主要服务器供应商。

而这些厂商采用宁畅服务器,最关键的是看重宁畅提供的服务器定制化能力。

💥️2、服务器新蓝海

根据东方证券《电子行业深度报告》✨显示,预计到2024年中国5G用户将超过7.7亿人,大环境对数据处理的需求增长,正拉动服务器出货量猛增。

《中国互联网发展报告(2021)⭐》✨统计,2020年我国人工智能产业规模为3031亿元,同比增长15%,这意味着更高的数据处理量,以及围绕不同AI场景的多样化算力基础设施需求。

不断升高的数据处理量,多样化的场景,使得标准化的服务器产品痛点愈发凸显,如潜在的资源浪费、运维过于复杂及与应用场景难匹配等。

因此整个服务器市场,正加速进入定制化时代。据IDC市场调研显示,全球服务器市场定制化产品采购份额已达30%以上。

早在2020年创立之初,宁畅便提出“定制”战略,从质量、技术、行业等维度,为互联网、电信、金融、医疗、教育等细分市场用户,提供从架构、FEA、运维到部署等全周期的定制保障服务。

2021年4月,宁畅又提出“智定+”战略,重点面向AI算力用户,依托“智慧研发”、“质能制造”、“至享服务”等服务与技术体系,真正赋能用户AI应用场景。

不难看出,宁畅高速成长背后正是抓住了服务器定制化蓝海的重要契机。

💥️结语:宁畅能否出圈?❓❓

宁畅作为初创企业能在MLPerf Training中夺冠,可见其团队深厚的技术积累。

在服务器市场需求猛增的背景下,宁畅潜心定制化服务器领域,抓住自身核心优势,益是明智之选。

但纵观服务器头部企业,都在向上下游迅猛发展,芯片、云计算、分布式存储等都是各方布局已久的发力点。

宁畅公司未来是否要“出圈”发展,在本次采访中我们暂未得到明确答案。但服务器行业的变革已到来,相信在这场变革中,宁畅这家初创公司能带给我们更多“惊喜”。

转载请注明原文地址: https://www.pcnow.com.cn/tech/557225
00