NSA.MA-A3 DPU加速卡

恒扬数据NSA.MA-A3 DPU加速卡是一款半高半长PCIe加速卡，该卡具备业界领先的400G+PCIe Gen5.0x16高速接口，单板PCIe供电, 兼容高性能和紧凑型机箱，可提供超高带宽、低延迟的数据传输解决方案，适用于智算数据中心AI网络、云计算、边缘计算、网络加速和高性能计算等领域，能够有效支持需要大量数据交换和实时处理的应用场景。

产品概述
性能特点
产品规格
典型应用

• 高带宽高密度
具备 400G面板接口和PCIe Gen5接口，支持极高的数据传输速率，满足大规模数据处理和实时应用的需求。适用于高性能计算和数据中心环境中的高速数据传输需求，如AI网络等。半高半长卡设计，使得该卡能够在更紧凑的机箱中使用，适应各种空间受限的环境，同时保持卓越的性能表现。
• 可编程加速
基于 Agilex 7 DPU 的 NSA.MA-A3卡能够根据具体的应用需求进行编程和优化。这意味着它可以灵活地加速不同的 AI 工作负载，包括深度学习推理、数据预处理和模型压缩等。
• 硬件加速器集成
Agilex 7 系列 DPU 支持集成高效的 DSP 模块和专用的 AI 引擎，可以加速复杂的数学计算，如矩阵运算、卷积运算等，大幅提升 AI 算法的执行速度。
• 低延迟和高带宽
结合 400G 接口和 PCIe Gen5 技术和DPU的并行处理能力，确保了低延迟和高吞吐量处理网络流量，适用于需要实时处理和快速响应的 AI应用场景，提升了系统的整体响应速度和数据处理能力。
• 高能效比
相比软件实现方案，DPU加速性能有数倍甚至百倍的提升，每Watt功耗获得的性能优势明显，性价比、性能功耗比相较传统服务器CPU有量级倍数的提升。

• 灵活升级更新
DPU加速卡可在线升级更新加速算法，且无需重启服务器，可灵活适应不同加速场景，具备通用性。
• 应用广泛
适用于数据中心、云计算、边缘计算、网络加速和高性能计算等领域，能够有效支持需要大量数据交换和实时处理的应用场景。

智算中心的 AI NIC 解决方案

智算中心的需求与挑战
随着AI模型的规模和复杂性不断增加，尤其是在深度学习和大数据处理的背景下，数据传输量剧增，网络容易成为系统性能的瓶颈。特别是在分布式计算环境中，节点之间的数据交换频繁，若网络带宽不足或延迟过高，会严重影响AI任务的执行效率，所以AI网络需要支持高带宽以便在节点之间快速传输大量数据。同时，低延迟是实时AI训练和推理的关键。

解决方案实现
- 接口速率: 提供单口400GE或双口200GE IO以及PCIe Gen5高速接口，能够满足AI计算和数据中心应用对带宽的严苛需求。
- DPU直达 NVMe 存储: 通过 DPU直接连接 NVMe 存储设备，实现数据的高速读写，减少中间环节带来的延迟，从而显著提升系统的整体性能。
- RDMA 协议: 搭载标准/自研 RDMA协议，实现了远程内存访问的高效性和低延迟，适用于大规模数据处理和高性能计算任务。
- 自研通信库: 硬件结合自研通信库，能够实时感知业务需求，并根据实际应用场景动态调整，优化数据传输路径和计算任务分配。
- 多路径高性能拥塞控制算法: 自研的多路径拥塞控制算法在高并发和高负载情况下，能够智能地选择最佳数据传输路径，避免网络拥塞，保障数据传输的稳定性和速度。
- 降低长尾时延: 硬件级重传机制有效减少了因网络波动和数据包丢失导致的延迟，长尾时延降低达 50%，显著减少了因重传带来的等待时间，提升了整体系统响应速度。