华为超融合:MPLS 2022

智聪说说网
智聪说说网
智聪说说网
43262
文章
0
评论
2023-02-2504:26:51 评论 8

2022年4月7日,在MPLS SD & AI华为加拿大研究所数据中心网络首席研究员郑晓龙在网络世界大会上发表了0丢包以太网,100%释放计算能力的主题演讲,解读华为超融合数据中心网络CloudFabric 3.0解决方案是如何创新解决数据中心网络丢包问题,实现低延迟、高吞吐量、大规模0以太网丢包,100%释放算力潜力。

计算能力缺失是计算能力时代以数据为中心的最大挑战。要实现数据的实时处理和价值实现,需要强大的计算能力支持。

郑晓龙说:计算能力的缺失是计算能力时代以数据为中心的最大挑战。要实现数据的实时处理和价值实现,需要强有力的计算能力支持。大数据无处不在,如元宇宙、基于大数据的病毒传播跟踪、基于人工智能的药物研究、基于用户习惯的智能推荐广告等。这些大数据的成功应用需要强大的计算能力来快速处理数据。然而,人工智能计算模型的规模呈指数级增长。例如,业内最新发布的语言模型Megatron-Turing NLG已经实现支持5300亿参数,而在2017年业界最复杂的模型还仅支持6100万参数,五年内计算压力增加了10000倍。如何有效提高计算能力,100%释放计算能力的潜力,成为计算能力时代首先要解决的问题。

完成一个AI模型(比如GPT3语言模型)培训所需的100亿浮点计算要求需要许多计算服务器组成一个集群协。然而所有的AI性能天花板存在于训练集群中。到达天花板时,即使增加服务器节点,也不能进一步提高集群的性能,甚至可能下降。这是因为集群中有计算协调。当网络丢失包时,由于协调等待,时间和其他费用增加,计算能力继续下降。据实验统计,0.1%的丢包会造成50%的计算能力损失。因此,要提高计算能力,首先要构建0丢包数据中心网络。

抖音赞自助平台业务下单快手点赞购买网站,dy粉丝自助下单平台 - 抖音0.1元一万赞平台

华为超融合数据中心网络网络CloudFabric 3.基于独特性的0解决方案iLossless智能无损算法结束了以太网自诞生以来40多年的丢包历史。以太网以高吞吐量、低延迟和大规模0丢包,有助于在任何场景下释放100%的多元计算能力。

高吞吐量:传统的流量调度依赖于手动僵化配置,无法适应网络的动态变化。华为智能无损核心技术ACC(Automatic ECN)在任何拥塞链路0丢包的基础上,可以准确预测网络拥塞状态,实现近100%的吞吐。通过第三方权威测试机构Tolly表明超集成数据中心网络可以帮助全闪存IOPS性能提高93%。2021年8月,智能无损技术论文《ACC: Automatic ECN Tuning for High-Speed Datacenter Networks》(高性能数据中心网络ECN动态调优入选全球网络通信顶级会议ACM SIGCOMM 2021一致认可的2021,具有世界级的技术影响力。

低时延:在HPC在高性能计算中,应用延迟=计算操作步数*每步时延,因此针对时延敏感型应用,减少计算操作步数可以有效降低整体应用时延。基于在线计算的华为智能无损网计集成技术(In-network computing)和拓扑感知(Topology-Aware Computing)一方面,网络参与计算信息的收集和同步,减少计算信息的同步次数,另一方面,确保计算任务分布在同一个位置TOR下,减少通信跳数,进一步降低应用延迟。以MPI_allreduce例如,与传统网络相比,超融合数据中心网络可以有效降低延迟,提高27%的计算效率。以MPI_allreduce例如,与传统网络相比,超融合数据中心网络可以有效降低延迟,提高27%的计算效率。

大规模:传统的三层数据中心CLOS最大的网络架构支持65k节点,不能满足大型数据中心规模诉求。基于新一代直接连接拓扑组网络架构和创新的分布式自适应路由协议,华为超融合数据中心网络不仅满足计算网络0丢包的需求,还支持270k节点大规模组网,组网规模是行业的4倍,可以帮助构建E级和10级E大型和超大型计算能力枢纽。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。

标签:华为超融合:MPLS 2022

智聪说说网
  • 本文由 发表于 2023-02-2504:26:51
  • 转载请务必保留本文链接:https://www.zhicongwang.com/104575.html