算力芯片国产化三路线：GPU、NPU 与 DPU 的协同演进

内容分享2个月前发布北松_

6 0 0

全能 AI 聚合平台免费

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI对话 AI生图 AI视频

免费使用 →

——芯片架构、互联协议、加速卡生态的代表性企业调查

一、GPU 路线：通用加速架构的核心阵地

GPU 是当前算力芯片体系里兼顾 通用性 × 并行度 × 生态成熟度 的主力路线。
国产 GPU 的发展重点聚焦在 架构、指令集、软件栈、互联协议 四个层面。

◆ 代表性企业与技术方向

企业	技术路线	架构特点	产品形态	生态进展
昇腾（华为）	训练/推理通用加速	多核心并行架构、矩阵计算单元	加速卡、整机柜、AI 服务器	完整软件栈（CANN）、多行业模型适配
天数智芯（Moore Threads）	通用 GPU（GPGPU）	MUSA 架构、统一着色与计算单元	GPGPU 卡、工作站卡	MUSA 软件栈、多媒体+AI双场景
壁仞科技（Biren）	高并发训练加速	BR 结构、SIMD+张量单元	训练卡、推理卡	高密度训练场景验证
寒武纪（Cambricon）	GPU + AI 协处理架构	张量核心优化、并行峰值改善	服务器卡、训练卡	与服务器厂商适配度提升
沐曦（Muxi）	数据中心 GPU	张量阵列、内存带宽优化	训练/推理卡	面向 AI 集群的软件栈建设中

◆ GPU 技术层重点（适合写入文章）

1）体系结构：标量/向量 × SIMD × 张量单元协同

张量核心（Tensor Core）是国产 GPU 的重点突破方向
并行度与片上带宽直接影响训练效率

2）互联协议：PCIe、NVLink 类协议、自研高速链路

国产 GPU 均在研发自有高速互联，用于多卡并行与大规模集群
关键指标包括：带宽、时延、拓扑结构

3）软件栈：编译器 + Kernel + Runtime + Operator

CANN、MUSA、BR 软件栈等均投入巨大

GPU 的关键问题不是硬件，而是 生态成熟度 + 编译器稳定性。

二、NPU 路线：面向推理优化的专用加速

NPU 的优势在于能耗效率高、延迟稳定、适合大规模推理部署。
虽然不追求通用性，但在 AI 推理 × 企业侧场景 中价值越来越高。

◆ 代表性企业与技术方向

企业	技术路线	架构特点	典型产品	生态进展
寒武纪（Cambricon）	多核 AI 专用加速	MLU 架构、张量阵列、低延迟	MLU 加速卡	推理框架较成熟
地平线（Horizon Robotics）	边缘 NPU	BPU 架构、算子定制化	汽车/终端 AI 芯片	车载推理生态强
燧原科技（Enflame）	数据中心推理/训练	训练/推理双路径	云端训练加速卡	与云厂商协同比较多
海光（Hygon）	NPU + CPU 协同	数据通路优化	通算/推理一体芯片	适配服务器场景
深思（ThinkForce）	专用推理架构	高并发推理内核	推理加速卡	面向互联网业务

◆ NPU 技术层重点

1）计算方式：稀疏化 × 低比特量化（INT8/FP8）

推理任务实际更依赖：

INT8 推理性能
稀疏矩阵乘优化
片上 SRAM 访问路径

2）算子优化：面向具体模型的 Kernel 调度

Transformer、LLM、CV 方向均需定制算子
软件栈深度决定产品表现

3）场景化生态：云侧/端侧/车载差异大

NPU 很难通吃，需要准确场景定位。

三、DPU 路线：算力系统里的“数据调度与流控引擎”

DPU（Data Processing Unit）不是算力芯片，而是高密度服务器里的 数据路径控制核心。

在 AI 集群中，DPU 的作用相当清晰：

“卸载网络、存储、安全任务，让 GPU 专注训练/推理。”

◆ 代表性企业与技术方向

企业	路线定位	架构特点	代表产品	技术重点
海光 Hygon（SmartNIC/DPU）	网络/存储卸载	FPGA + ARM/自研核	DPU/SmartNIC	面向数据中心优化
联想（Lenovo）	服务器网络加速	面向高密度 AI 集群	DPU 加速方案	强调整机柜协同
山石网科	安全卸载 DPU	安全处理内核 + 网络路径	网络加速卡	网络安全场景强
启英泰伦	嵌入式 DPU	轻量化网络卸载	边缘 DPU	面向 IoT/边缘
中科院体系（研究方向）	SoC + 网络协处理	原型验证	研究平台	高带宽协议实验验证

◆ DPU 技术层重点

1）可编程数据通路（P4 / eBPF）

DPU 需处理网络/存储/IO 调度：

P4 pipeline
eBPF 加速路径
流表管理

2）高带宽互联（PCIe Gen5/6、CXL）

算力集群越大，对网络延迟越敏感，
DPU 正成为“集群性能瓶颈”的关键变量。

3）“GPU + DPU” 协同

GPU 算力
DPU 数据路径
CPU 控制路径

未来 AI 服务器架构将更像“三明治结构”。

四、互联协议：AI 集群效率的决定因素

不论 GPU、NPU 还是 DPU，互联才是训练系统真正的限速环节。

国产厂商的重大方向包括：

● 高速链路

PCIe Gen4 → Gen5 → Gen6
CXL（内存池化）
自研高速互联（类 NVLink）
机柜间光互连（800G → 1.6T）

● 拓扑结构

Mesh
Ring
Fat-tree
混合拓扑（scale-out）

尤其在千卡级集群中，互联协议直接决定训练效率。

五、加速卡生态：软件栈是决定性力量

软件体系一般包括：

1）算子库（Operator Library）
2）Kernel 优化（CUDA Kernel 同类体系）
3）深度学习编译器（Graph Compiler）
4）Runtime（调度器）
5）分布式训练框架适配（Megatron、DeepSpeed 等）

国产 GPU/NPU 厂商均在投入大量资源构建：

CANN
MUSA
BR 软件栈
MLU 软件体系
各类自研 Kernel

生态成熟度直接决定算力体验。

六、企业矩阵图（结论提炼）

路线	最适场景	代表企业	技术主轴
GPU	通用训练 + 推理	昇腾、天数智芯、壁仞、沐曦	架构、互联、编译器
NPU	大规模推理/行业推理	寒武纪、燧原、地平线	算子优化、低比特计算
DPU	数据流调度、集群协同	海光、联想、行业厂商	网络卸载、CXL、P4/eBPF