算力芯片国产化三路线:GPU、NPU 与 DPU 的协同演进

内容分享1小时前发布 北松_
6 0 0

——芯片架构、互联协议、加速卡生态的代表性企业调查


一、GPU 路线:通用加速架构的核心阵地

GPU 是当前算力芯片体系里兼顾 通用性 × 并行度 × 生态成熟度 的主力路线。
国产 GPU 的发展重点聚焦在 架构、指令集、软件栈、互联协议 四个层面。


◆ 代表性企业与技术方向

企业

技术路线

架构特点

产品形态

生态进展

昇腾(华为)

训练/推理通用加速

多核心并行架构、矩阵计算单元

加速卡、整机柜、AI 服务器

完整软件栈(CANN)、多行业模型适配

天数智芯(Moore Threads)

通用 GPU(GPGPU)

MUSA 架构、统一着色与计算单元

GPGPU 卡、工作站卡

MUSA 软件栈、多媒体+AI双场景

壁仞科技(Biren)

高并发训练加速

BR 结构、SIMD+张量单元

训练卡、推理卡

高密度训练场景验证

寒武纪(Cambricon)

GPU + AI 协处理架构

张量核心优化、并行峰值改善

服务器卡、训练卡

与服务器厂商适配度提升

沐曦(Muxi)

数据中心 GPU

张量阵列、内存带宽优化

训练/推理卡

面向 AI 集群的软件栈建设中


◆ GPU 技术层重点(适合写入文章)

1)体系结构:标量/向量 × SIMD × 张量单元协同

  • 张量核心(Tensor Core)是国产 GPU 的重点突破方向
  • 并行度与片上带宽直接影响训练效率

2)互联协议:PCIe、NVLink 类协议、自研高速链路

  • 国产 GPU 均在研发自有高速互联,用于多卡并行与大规模集群
  • 关键指标包括:带宽、时延、拓扑结构

3)软件栈:编译器 + Kernel + Runtime + Operator

  • CANN、MUSA、BR 软件栈等均投入巨大

GPU 的关键问题不是硬件,而是 生态成熟度 + 编译器稳定性


二、NPU 路线:面向推理优化的专用加速

NPU 的优势在于能耗效率高、延迟稳定、适合大规模推理部署。
虽然不追求通用性,但在 AI 推理 × 企业侧场景 中价值越来越高。


◆ 代表性企业与技术方向

企业

技术路线

架构特点

典型产品

生态进展

寒武纪(Cambricon)

多核 AI 专用加速

MLU 架构、张量阵列、低延迟

MLU 加速卡

推理框架较成熟

地平线(Horizon Robotics)

边缘 NPU

BPU 架构、算子定制化

汽车/终端 AI 芯片

车载推理生态强

燧原科技(Enflame)

数据中心推理/训练

训练/推理双路径

云端训练加速卡

与云厂商协同比较多

海光(Hygon)

NPU + CPU 协同

数据通路优化

通算/推理一体芯片

适配服务器场景

深思(ThinkForce)

专用推理架构

高并发推理内核

推理加速卡

面向互联网业务


◆ NPU 技术层重点

1)计算方式:稀疏化 × 低比特量化(INT8/FP8)

推理任务实际更依赖:

  • INT8 推理性能
  • 稀疏矩阵乘优化
  • 片上 SRAM 访问路径

2)算子优化:面向具体模型的 Kernel 调度

  • Transformer、LLM、CV 方向均需定制算子
  • 软件栈深度决定产品表现

3)场景化生态:云侧/端侧/车载差异大

NPU 很难通吃,需要准确场景定位。


三、DPU 路线:算力系统里的“数据调度与流控引擎”

DPU(Data Processing Unit)不是算力芯片,而是高密度服务器里的 数据路径控制核心

在 AI 集群中,DPU 的作用相当清晰:

“卸载网络、存储、安全任务,让 GPU 专注训练/推理。”


◆ 代表性企业与技术方向

企业

路线定位

架构特点

代表产品

技术重点

海光 Hygon(SmartNIC/DPU)

网络/存储卸载

FPGA + ARM/自研核

DPU/SmartNIC

面向数据中心优化

联想(Lenovo)

服务器网络加速

面向高密度 AI 集群

DPU 加速方案

强调整机柜协同

山石网科

安全卸载 DPU

安全处理内核 + 网络路径

网络加速卡

网络安全场景强

启英泰伦

嵌入式 DPU

轻量化网络卸载

边缘 DPU

面向 IoT/边缘

中科院体系(研究方向)

SoC + 网络协处理

原型验证

研究平台

高带宽协议实验验证


◆ DPU 技术层重点

1)可编程数据通路(P4 / eBPF)

DPU 需处理网络/存储/IO 调度:

  • P4 pipeline
  • eBPF 加速路径
  • 流表管理

2)高带宽互联(PCIe Gen5/6、CXL)

算力集群越大,对网络延迟越敏感,
DPU 正成为“集群性能瓶颈”的关键变量。

3)“GPU + DPU” 协同

  • GPU 算力
  • DPU 数据路径
  • CPU 控制路径

未来 AI 服务器架构将更像“三明治结构”。


四、互联协议:AI 集群效率的决定因素

不论 GPU、NPU 还是 DPU,互联才是训练系统真正的限速环节。

国产厂商的重大方向包括:

● 高速链路

  • PCIe Gen4 → Gen5 → Gen6
  • CXL(内存池化)
  • 自研高速互联(类 NVLink)
  • 机柜间光互连(800G → 1.6T)

● 拓扑结构

  • Mesh
  • Ring
  • Fat-tree
  • 混合拓扑(scale-out)

尤其在千卡级集群中,互联协议直接决定训练效率。


五、加速卡生态:软件栈是决定性力量

软件体系一般包括:

1)算子库(Operator Library)
2)Kernel 优化(CUDA Kernel 同类体系)
3)深度学习编译器(Graph Compiler)
4)Runtime(调度器)
5)分布式训练框架适配(Megatron、DeepSpeed 等)

国产 GPU/NPU 厂商均在投入大量资源构建:

  • CANN
  • MUSA
  • BR 软件栈
  • MLU 软件体系
  • 各类自研 Kernel

生态成熟度直接决定算力体验。


六、企业矩阵图(结论提炼)

路线

最适场景

代表企业

技术主轴

GPU

通用训练 + 推理

昇腾、天数智芯、壁仞、沐曦

架构、互联、编译器

NPU

大规模推理/行业推理

寒武纪、燧原、地平线

算子优化、低比特计算

DPU

数据流调度、集群协同

海光、联想、行业厂商

网络卸载、CXL、P4/eBPF

三条路线不是竞争,而是 系统分工协同


算力芯片国产化三路线:GPU、NPU 与 DPU 的协同演进

© 版权声明

相关文章

暂无评论

none
暂无评论...