机器人在线 > 资讯 > 企业动态 > 实现商业化部署，寒武纪发布新款AI训练卡MLU370-X8

实现商业化部署，寒武纪发布新款AI训练卡MLU370-X8

时间：2022-03-22 来源：机器人之心pro 阅读：6278

2022年3月21日，寒武纪正式发布新的加速卡MLU370-X8。MLU370-X8配备双芯片四芯粒思元370，集寒武纪MLU-Link多芯互联技术于一体，主要面向培训任务。在YOLOV3.Transformer等行业应用广泛的培训任务中，8卡计算系统平均平行性能达到350WRTXGPU。

寒武纪训练加速卡MLU370-X8。

双芯思元370架构。

MLU370-X8智能加速卡提供250W最大训练功耗，可充分发挥人工智能训练加速中常见的FP32.FP16或BF16计算性能。寒武纪首次将MLU370-X8智能加速卡中的双芯片四芯粒思元370集成，提供了两倍于标准思元370加速卡的内存。编码资源，配备MLU-Link多芯互联技术。在YOLOV3.Transformer.BERT和Resnet101训练任务中，8卡平行平均性能达到350WRTXGPU的155%。

双芯片四芯粒思元370集成在MLU370-X8中。

MLU-Link多芯互联技术。

MLU370-X8智能加速卡支持MLU-Link多芯互联技术，提供卡内和卡间的互联功能。寒武纪专门为多卡系统设计了MLU-Link桥接卡，可实现8个思元370芯片的全互联。每张加速卡可获得200GB/s的通信吞吐性能，带宽为PCIe4.0的3.1倍。

MLU370-X8MLU-Link4卡桥接。

MLU370-X8MLU-Link4卡桥接拓扑。

CambriconnneuWare交付优异的训练性能。

Cambriconneuware支持FP32.FP16混合精度.BF16混合精度和自适应精度训练等多种训练方法，并提供灵活高效的训练工具。高性能算子库完全覆盖了视觉.语音.自然语言处理.搜索推荐和自动驾驶等典型的深度学习应用，可以满足用户对算子覆盖率和模型精度的需求。

Cambriconneuware为思元370系列芯片提供了训推一体化加速。

根据CambriconneuwareSDK的实际测量，MLU370-X8单卡在四种常见的深度学习网络模型中的性能相当于主流350WRTXGPU；在多卡加速方面，MLU370-X8借助MLU-Link多芯互联技术和CambriconeuwareCNCL通信库的优化，在8卡环境下实现了更好的并行加速比。

MLU370-X8单机8卡部署配置。

比较单卡MLU370-X8的性能。

8卡MLU370-X8性能比较。

测试环境

250WMLU370-X8:NF5468m5/IntelXeongold5218CPU@2.30GHz/MLU370SDK1.2.0。

350WGPU:Supermicroas-4124GS-TNR/IntelXeongold6130CPU@2.10GHz/Cuda11.2。

MLU370-X8规格表。

MLU370-X8补充思元370系列产品线。

寒武纪长期坚持云边缘集成、训练与推广集成、软硬件协作的技术理念。MLU370-X8提供思元370内存带宽的两倍。结合MLUArch03架构和MLU-Link多芯互联技术，充分发挥思元370芯片在培训任务中的优势。MLU370-X8定位为中高端，与思元290高端培训产品相结合。玄思1000进一步丰富了寒武纪的培训算力交付方式；并与基于思元370芯粒(chiplet)技术的MLU370-X4.MLU370-S4智能加速卡合作，形成完整的云培训。

MLU370-X8加速卡与国内主流服务器合作伙伴的适应已经完成，客户已经实现了小规模出货。

浪潮信息人工智能和高性能产品线副总经理张强表示：目前，浪潮与寒武纪在思源370系列产品上顺利合作，并逐步在互联网、金融、制造等领域实施；MLU370-X8性能优异。我们期待双方继续加强合作，为更多行业和客户带来优秀的人工智能计算能力。

寒武纪用产品向客户证实了其初衷和决心：为人工智能技术的爆发提供优秀的人工智能芯片产品，使机器能够更好地理解和服务人类。

ai 智能

机器人在线版权与免责声明：

1.凡本网注明[来源：机器人在线]的所有文字、图片、音视和视频文件，版权均为机器人在线(www.imrobotic.com)独家所有。如需转载请与021-60717199联系。任何媒体、网站或个人转载使用时须注明来源“机器人在线”，违反者本网将追究其法律责任。

2.本网转载并注明其他来源的稿件，均来自互联网或业内投稿人士，版权属于原版权人。转载请保留稿件来源及作者，禁止擅自篡改，违者自负版权法律责任。

3.本网评论版块中各网友的评论只代表网友个人观点，不代表本站的观点或立场。