cann:CANN 5.先看硬核技术

智聪说说网
智聪说说网
智聪说说网
34800
文章
0
评论
2022-12-1908:25:51 评论 12

该账户是华为云开发者社区的官方运营账户,提供全面深入的云计算前景分析、丰富的技术干货和程序样本,分享华为云前沿信息的动态

本文分享自华为云社区《CANN 5.先看硬核技术》,作者:kourei。

2018年9月,CANN 1.0华为昇腾AI使能平台诞生;

2020年8月,CANN 3.0版本发布,专门面向AI场景的异构计算架构搭建了上层深度学习框架和底层AI硬件平台的桥梁在开发效率和性能方面处于领先地位,可以支持用户全方位的人工智能计算需求。

去年,CANN携手200 继续推进高校/科研机构AI科研进步;

在CANN在架构的支持下,盘古有数千亿的参数AI模型带来前所未有的商业价值;

社区开发者数量从10万增加到40万,生态阵营蓬勃发展…

2021年12月,CANN5.0版本也将与您正式见面。通过软硬件的协同优化,该版本将使训练性能翻倍,并以实力展示AI领域的「中国速度」!

先放几个彩蛋,让大家先见为快!

先放几个彩蛋,让大家先见为快!

CANN5.与3.0版相比,在典型的推理场景中,性能可以提高30%到140%;大规模集群训练和常用模型训练可以使性能翻倍;

CANN 5.0性能显著提升背后的关键技术是什么?

计算启动时数据载入过长会阻碍后续计算流水的启动速度,就像手机充电量达到20%才能启动一样。

CANN 5.0将计算指令和数据载入实现多流量平行,优化允许用户分段载入数据,当载入数据满足分段数据量时,立即启动后续计算逻辑,并继续载入后续数据。当后续分段数据载入完成并自由流动时,将依次启动后续计算,充分发挥升腾AI处理器多流水并行能力,实现无缝多流水连接。

随着网络结构的日益复杂,内外存处理数据和多算子对应多指令带来的性能费用越来越不容忽视。

CANN 5.0在3.0的基础上识别更多的集成场景,通过多算子自动集成减少计算节点数,有效减少内存复制;计算图中的算子通过灵活定制的集成规则最大限度地集成,为开发者赢得更多的计算性能收入。

在大规模集群训练场景中,通常需要数千次迭代计算,每次迭代包括正反两个方向的逐层前馈计算。

大多数同步更新算法要求每个计算节点在下一轮迭代正计算开始前同步梯度数据,完成权重更新。这将导致两轮迭代之间的等待间隙,即通信拖尾。

CANN 5.0通过智能梯度切割算法,自动搜索最佳梯度参数切割方法,选择合适的通信时间和通信量进行梯度传输,最大限度地实现计算和通信,最大限度地减少通信拖尾时间,促进集群训练达到最佳性能。

就像我们不能指望相同的美容相机可以装饰一个无与伦比的美,类似地,对于不同的网络,如果所有的简单数据切割策略,往往会导致计算单元不能满载,性能不能达到预期。

CANN 5.0通过智能数据切割技术,为网络量身定制最佳切割策略,实现单个计算单元的载计算,充分利用硬件资源,带来可观的性能效益。

快手免费领赞的网站,qq空间访客在线自助下单网站 - 抖音点赞24小时业务平台

同时,为了解决调优耗时的问题,CANN 5.预设了大量的模型优化规则,可以大大降低调优时间,给用户带来优秀的调优体验。

除了性能上的惊喜,CANN5.在3.0的基础上,进一步简化了代码开发和调测方法,帮助开发者实现高效AI开发。

支持模型自动迁移,无需手动修改代码,一键完成模型移植,立即想象升腾910 AI处理器带来的澎湃算力。在APP算子函数直接调用,编译加载和执行自动完成。

支持算子测试代码的自动生成,结果可以一键执行。

在过去的两年里,业内出现了许多大模型,如GPT-3,参数量高达1750亿,单独一个大模型就需要月3TB存储空间,计算能力需求更惊人。

为了解决模型放下的问题,用户可以以友好的方式使用,几乎不需要更改原始代码,CANN5.0在“AI在优化器、梯度、权重等维度上,编译器并行训练模型。

通过平行不同层次的模型,将原本放不下的模型分布在集群上,并能以较高的计算能力利用率进行训练。以83亿的Megatron以模型为例,单卡180GB内存需求减少到16G这样,超大模型就可以放下了。

此外,在某些应用程序场景超大输入数据规格也可能面临挑战。

例如,在遥感应用领域,这些遥感图像的空间分辨率越来越高,平均可达CHW:4*30000*3万甚至更高,单样本的大小通常是2-3GB,超大图片计算已成为遥感应用产业的发展「卡脖子」问题。

CANN 5.帮助武汉大学建立世界上第一个遥感框架LuojiaNet,解决遥感图像大幅面、多通道的问题。实验证明,FCN8S模型处理遥感数据集(图像分辨率3万*3万)精度显著提高。其中隐藏了大量的关键技术:

1. 图片大,显存不够怎么办?

根据数据量和集群规模,充分利用集群优势,完成图割图片,部署到各计算节点。

2. 特征跨度大,特征丢失,边缘失真怎么办?

在当前切片的卷积运算前,具有相邻切片特征的自动计算overlap为当前切片提供上下文信息,确保图片精度。

3. 如何高效交换overlap数据?

借助高效的alltoallv在相邻节点之间收发数据,实现无阻塞通信。

CANN5.依托自动分解和并行技术,将超大模型的处理与普通模型一样简单,相信在CANN5.在0版的助攻下,肯定会促进AI产业不断加快创新,迎来新的爆发期。

ModelZoo是升腾提供的首选模型库,其装载模型可以直接在升腾AI高效执行处理器。目前CANN5.全面支持包括TensorFlow, PyTorch, ONNX行业主流模式400 ,同时算子完备度大幅提升。

开发者可以移动升腾社区Modelzoo进行体验。

CANN作为人工智能的基础软件平台,在基础能力和关键技术上不断取得突破,但要想走得更远,只能与人合作。在过去的一年里,CANN全面展开开发者生态:

到目前为止,盛腾社区活动比去年增加了三倍;目前,已聚集40万开发商和3000名核心开发商,计划在2022年开发数百万开发商和1万名核心开发商;与200多个大学研究团队合作,为中智项目贡献2000人 个模型及500 个算子。

聚是一团火,生态建设是使能AI通过开放、合作、共赢的方式,产业可持续发展的动力,CANN不断与合作伙伴携手,全方位、多维度支持AI帮助人工智能繁荣发展的产业!

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。

标签:cann:CANN 5.先看硬核技术

智聪说说网
  • 本文由 发表于 2022-12-1908:25:51
  • 转载请务必保留本文链接:https://www.zhicongwang.com/84586.html