NSA.MA-A3 DPU加速卡

恒扬数据NSA.MA-A3 DPU加速卡是一款半高半长PCIe加速卡,该卡具备业界领先的400G+PCIe Gen5.0x16高速接口,单板PCIe供电, 兼容高性能和紧凑型机箱,可提供超高带宽、低延迟的数据传输解决方案,适用于智算数据中心AI网络、云计算、边缘计算、网络加速和高性能计算等领域,能够有效支持需要大量数据交换和实时处理的应用场景。

  • 产品概述

  • 性能特点

  • 典型应用

恒扬数据NSA.MA-A3 DPU加速卡是一款半高半长PCIe加速卡, 该卡具备业界领先的400G+PCIe Gen5.0x16高速接口,单板PCIe供电, 兼容高性能和紧凑型机箱,可提供超高带宽、低延迟的数据传输解决方案,适用于智算数据中心AI网络、云计算、边缘计算、网络加速和高性能计算等领域,能够有效支持需要大量数据交换和实时处理的应用场景。

• 高带宽高密度
具备 400G面板接口和PCIe Gen5接口,支持极高的数据传输速率,满足大规模数据处理和实时应用的需求。适用于高性能计算和数据中心环境中的高速数据传输需求,如AI网络等。半高半长卡设计,使得该卡能够在更紧凑的机箱中使用,适应各种空间受限的环境,同时保持卓越的性能表现。
• 可编程加速
基于 Agilex 7 DPU 的 NSA.MA-A3卡能够根据具体的应用需求进行编程和优化。这意味着它可以灵活地加速不同的 AI 工作负载,包括深度学习推理、数据预处理和模型压缩等。
• 硬件加速器集成
Agilex 7 系列 DPU 支持集成高效的 DSP 模块和专用的 AI 引擎,可以加速复杂的数学计算,如矩阵运算、卷积运算等,大幅提升 AI 算法的执行速度。
• 低延迟和高带宽
 结合 400G 接口和 PCIe Gen5 技术和DPU的并行处理能力,确保了低延迟和高吞吐量处理网络流量,适用于需要实时处理和快速响应的 AI应用场景,提升了系统的整体响应速度和数据处理能力。
• 高能效比 
相比软件实现方案,DPU加速性能有数倍甚至百倍的提升,每Watt功耗获得的性能优势明显,性价比、性能功耗比相较传统服务器CPU有量级倍数的提升。

• 灵活升级更新
DPU加速卡可在线升级更新加速算法,且无需重启服务器,可灵活适应不同加速场景,具备通用性
• 应用广泛 
适用于数据中心、云计算、边缘计算、网络加速和高性能计算等领域,能够有效支持需要大量数据交换和实时处理的应用场景

智算中心的 AI NIC 解决方案

智算中心的需求与挑战
随着AI模型的规模和复杂性不断增加,尤其是在深度学习和大数据处理的背景下,数据传输量剧增,网络容易成为系统性能的瓶颈。特别是在分布式计算环境中,节点之间的数据交换频繁,若网络带宽不足或延迟过高,会严重影响AI任务的执行效率,所以AI网络需要支持高带宽以便在节点之间快速传输大量数据。同时,低延迟是实时AI训练和推理的关键。

解决方案实现
 - 接口速率: 提供单口400GE或双口200GE IO以及PCIe Gen5高速接口,能够满足AI计算和数据中心应用对带宽的严苛需求。
 - DPU直达 NVMe 存储: 通过 DPU直接连接 NVMe 存储设备,实现数据的高速读写,减少中间环节带来的延迟,从而显著提升系统的整体性能。
 - RDMA 协议: 搭载标准/自研 RDMA协议,实现了远程内存访问的高效性和低延迟,适用于大规模数据处理和高性能计算任务。
 - 自研通信库: 硬件结合自研通信库,能够实时感知业务需求,并根据实际应用场景动态调整,优化数据传输路径和计算任务分配。
 - 多路径高性能拥塞控制算法: 自研的多路径拥塞控制算法在高并发和高负载情况下,能够智能地选择最佳数据传输路径,避免网络拥塞,保障数据传输的稳定性和速度。
 - 降低长尾时延: 硬件级重传机制有效减少了因网络波动和数据包丢失导致的延迟,长尾时延降低达 50%,显著减少了因重传带来的等待时间,提升了整体系统响应速度。