——芯片架构、互联协议、加速卡生态的代表性企业调查
一、GPU 路线:通用加速架构的核心阵地
GPU 是当前算力芯片体系里兼顾 通用性 × 并行度 × 生态成熟度 的主力路线。
国产 GPU 的发展重点聚焦在 架构、指令集、软件栈、互联协议 四个层面。
◆ 代表性企业与技术方向
|
企业 |
技术路线 |
架构特点 |
产品形态 |
生态进展 |
|
昇腾(华为) |
训练/推理通用加速 |
多核心并行架构、矩阵计算单元 |
加速卡、整机柜、AI 服务器 |
完整软件栈(CANN)、多行业模型适配 |
|
天数智芯(Moore Threads) |
通用 GPU(GPGPU) |
MUSA 架构、统一着色与计算单元 |
GPGPU 卡、工作站卡 |
MUSA 软件栈、多媒体+AI双场景 |
|
壁仞科技(Biren) |
高并发训练加速 |
BR 结构、SIMD+张量单元 |
训练卡、推理卡 |
高密度训练场景验证 |
|
寒武纪(Cambricon) |
GPU + AI 协处理架构 |
张量核心优化、并行峰值改善 |
服务器卡、训练卡 |
与服务器厂商适配度提升 |
|
沐曦(Muxi) |
数据中心 GPU |
张量阵列、内存带宽优化 |
训练/推理卡 |
面向 AI 集群的软件栈建设中 |
◆ GPU 技术层重点(适合写入文章)
1)体系结构:标量/向量 × SIMD × 张量单元协同
- 张量核心(Tensor Core)是国产 GPU 的重点突破方向
- 并行度与片上带宽直接影响训练效率
2)互联协议:PCIe、NVLink 类协议、自研高速链路
- 国产 GPU 均在研发自有高速互联,用于多卡并行与大规模集群
- 关键指标包括:带宽、时延、拓扑结构
3)软件栈:编译器 + Kernel + Runtime + Operator
- CANN、MUSA、BR 软件栈等均投入巨大
GPU 的关键问题不是硬件,而是 生态成熟度 + 编译器稳定性。
二、NPU 路线:面向推理优化的专用加速
NPU 的优势在于能耗效率高、延迟稳定、适合大规模推理部署。
虽然不追求通用性,但在 AI 推理 × 企业侧场景 中价值越来越高。
◆ 代表性企业与技术方向
|
企业 |
技术路线 |
架构特点 |
典型产品 |
生态进展 |
|
寒武纪(Cambricon) |
多核 AI 专用加速 |
MLU 架构、张量阵列、低延迟 |
MLU 加速卡 |
推理框架较成熟 |
|
地平线(Horizon Robotics) |
边缘 NPU |
BPU 架构、算子定制化 |
汽车/终端 AI 芯片 |
车载推理生态强 |
|
燧原科技(Enflame) |
数据中心推理/训练 |
训练/推理双路径 |
云端训练加速卡 |
与云厂商协同比较多 |
|
海光(Hygon) |
NPU + CPU 协同 |
数据通路优化 |
通算/推理一体芯片 |
适配服务器场景 |
|
深思(ThinkForce) |
专用推理架构 |
高并发推理内核 |
推理加速卡 |
面向互联网业务 |
◆ NPU 技术层重点
1)计算方式:稀疏化 × 低比特量化(INT8/FP8)
推理任务实际更依赖:
- INT8 推理性能
- 稀疏矩阵乘优化
- 片上 SRAM 访问路径
2)算子优化:面向具体模型的 Kernel 调度
- Transformer、LLM、CV 方向均需定制算子
- 软件栈深度决定产品表现
3)场景化生态:云侧/端侧/车载差异大
NPU 很难通吃,需要准确场景定位。
三、DPU 路线:算力系统里的“数据调度与流控引擎”
DPU(Data Processing Unit)不是算力芯片,而是高密度服务器里的 数据路径控制核心。
在 AI 集群中,DPU 的作用相当清晰:
“卸载网络、存储、安全任务,让 GPU 专注训练/推理。”
◆ 代表性企业与技术方向
|
企业 |
路线定位 |
架构特点 |
代表产品 |
技术重点 |
|
海光 Hygon(SmartNIC/DPU) |
网络/存储卸载 |
FPGA + ARM/自研核 |
DPU/SmartNIC |
面向数据中心优化 |
|
联想(Lenovo) |
服务器网络加速 |
面向高密度 AI 集群 |
DPU 加速方案 |
强调整机柜协同 |
|
山石网科 |
安全卸载 DPU |
安全处理内核 + 网络路径 |
网络加速卡 |
网络安全场景强 |
|
启英泰伦 |
嵌入式 DPU |
轻量化网络卸载 |
边缘 DPU |
面向 IoT/边缘 |
|
中科院体系(研究方向) |
SoC + 网络协处理 |
原型验证 |
研究平台 |
高带宽协议实验验证 |
◆ DPU 技术层重点
1)可编程数据通路(P4 / eBPF)
DPU 需处理网络/存储/IO 调度:
- P4 pipeline
- eBPF 加速路径
- 流表管理
2)高带宽互联(PCIe Gen5/6、CXL)
算力集群越大,对网络延迟越敏感,
DPU 正成为“集群性能瓶颈”的关键变量。
3)“GPU + DPU” 协同
- GPU 算力
- DPU 数据路径
- CPU 控制路径
未来 AI 服务器架构将更像“三明治结构”。
四、互联协议:AI 集群效率的决定因素
不论 GPU、NPU 还是 DPU,互联才是训练系统真正的限速环节。
国产厂商的重大方向包括:
● 高速链路
- PCIe Gen4 → Gen5 → Gen6
- CXL(内存池化)
- 自研高速互联(类 NVLink)
- 机柜间光互连(800G → 1.6T)
● 拓扑结构
- Mesh
- Ring
- Fat-tree
- 混合拓扑(scale-out)
尤其在千卡级集群中,互联协议直接决定训练效率。
五、加速卡生态:软件栈是决定性力量
软件体系一般包括:
1)算子库(Operator Library)
2)Kernel 优化(CUDA Kernel 同类体系)
3)深度学习编译器(Graph Compiler)
4)Runtime(调度器)
5)分布式训练框架适配(Megatron、DeepSpeed 等)
国产 GPU/NPU 厂商均在投入大量资源构建:
- CANN
- MUSA
- BR 软件栈
- MLU 软件体系
- 各类自研 Kernel
生态成熟度直接决定算力体验。
六、企业矩阵图(结论提炼)
|
路线 |
最适场景 |
代表企业 |
技术主轴 |
|
GPU |
通用训练 + 推理 |
昇腾、天数智芯、壁仞、沐曦 |
架构、互联、编译器 |
|
NPU |
大规模推理/行业推理 |
寒武纪、燧原、地平线 |
算子优化、低比特计算 |
|
DPU |
数据流调度、集群协同 |
海光、联想、行业厂商 |
网络卸载、CXL、P4/eBPF |
三条路线不是竞争,而是 系统分工协同。





