华为昇腾(Ascend)架构介绍

发布时间: 更新时间: 总字数:1400 阅读时间:3m 作者: IP上海 分享 网址

华为昇腾(Ascend)910B 是目前中国国产 AI 算力芯片中的旗舰产品,主要对标 NVIDIA A100/H100。本文将相关名词和术语分为硬件架构、内存与互联、软件栈、以及产品形态四个维度进行详细解释。

核心硬件架构

  1. NPU (Neural Processing Unit)
    • 解释: 神经网络处理器。昇腾 910B 属于 NPU,专门针对深度学习中的矩阵乘法、卷积等运算进行硬核加速,区别于通用 CPU 或图形渲染 GPU。
  2. 达芬奇架构 (Da Vinci Architecture)
    • 解释: 华为自主研发的芯片架构。其核心特征是 3D Cube
    • 3D Cube: 专门负责矩阵运算(Matrix)的硬件单元,每次时钟周期可以完成大规模的矩阵乘加,是 AI 训练提速的关键。
    • Vector (向量单元): 负责向量运算,处理非线性的激活函数等。
    • Scalar (标量单元): 负责控制逻辑和各种标量计算。
  3. AI Core / AI CPU
    • AI Core: 达芬奇架构的核心,负责主要的张量和向量计算。
    • AI CPU: 芯片内集成的小型 CPU 核心,负责处理不适合 NPU 计算的复杂逻辑、数据预处理和任务调度。

内存与互联技术

  1. HBM (High Bandwidth Memory)
    • 解释: 高带宽内存。910B 通常搭载 HBM2e 或 HBM3(不同批次有所不同)。AI 大模型需要极高的数据吞吐速度,HBM 通过垂直堆叠显存芯片,提供远高于传统 DDR 的带宽。
  2. HCCS (Huawei Cache Coherent System)
    • 解释: 华为自研的片间互联协议。类似于 NVIDIA 的 NVLink。它允许一台服务器内的 8 颗 910B 芯片之间高速通信,实现算力聚合。
  3. RoCE (RDMA over Converged Ethernet)
    • 解释: 远程直接内存访问协议。在多台服务器组成集群(Cluster)时,通过 100G/200G 网卡实现服务器间的高速、低延迟互联,是分布式训练大模型(如千亿参数模型)的基础。
  4. PCIe 4.0/5.0
    • 解释: 芯片与主机 CPU(如鲲鹏 920)通信的标准总线接口。

软件栈与生态 (CANN & MindSpore)

  1. CANN (Compute Architecture for Neural Networks)
    • 解释: 异构计算架构。它是昇腾硬件的驱动+加速库。地位等同于 NVIDIA 的 CUDA
    • 功能: 向上对接 AI 框架(PyTorch, TensorFlow),向下调用硬件资源,包含算子库(AscendCL)、编译器(ATC)等。
  2. MindSpore
    • 解释: 华为自研的 AI 框架。地位等同于 PyTorchTensorFlow。它与昇腾硬件结合最紧密,能实现动静结合的开发体验和全场景部署。
  3. AscendCL (Ascend Computing Language)
    • 解释: 昇腾计算语言。一套 C++ API,开发者通过调用它来实现模型加载、内存管理、推理和训练任务。
  4. ATC (Ascend Tensor Compiler)
    • 解释: 模型转换工具。将开源框架(如 ONNX, Caffe, TensorFlow)的模型转换成昇腾 NPU 能够识别的离线模型(.om 文件)。
  5. MindIE (Mind Inference Engine)
    • 解释: 昇腾推理引擎。专门针对大语言模型(LLM)推理优化的加速组件,对标 NVIDIA 的 TensorRT-LLM。

数据精度与性能指标

  1. FP16 / BF16 / INT8
    • FP16: 半精度浮点数,AI 训练的主流精度。
    • BF16 (Brain Floating Point): 910B 的重要特性。相比 FP16,BF16 动态范围更广,更适合大模型(如 Llama, GPT 系列)的稳定训练。
    • INT8: 8 位整型,常用于模型量化后的推理,以牺牲极小精度换取巨大的速度提升。
  2. TFLOPS (TeraFLOPS)
    • 解释: 每秒万亿次浮点运算。910B 的半精度(FP16)算力通常被认为达到或接近 A100 的水平(约 300+ TFLOPS)。

产品形态

  1. Atlas 300T (训练卡)
    • 解释: PCIe 卡形式,插在服务器里。
  2. Atlas 800 (训练服务器)
    • 解释: 整机产品,通常一台服务器内置 8 颗 910B 芯片,是目前国产大模型训练的主力机型。
  3. Atlas 900 (AI 集群)
    • 解释: 由成百上千台 Atlas 服务器通过交换机连接组成的超级计算机集群,用于训练超大规模参数模型(如盘古大模型)。

如何通俗理解昇腾

如果把大模型训练比作炼丹昇腾 910B 就是那口最顶级的炼丹炉达芬奇架构是炉子的内部构造;HBM 是快速倒药材的传送带;CANN 是操作炉子的说明书;而 MindSpore 就是记录丹药配方的秘籍。

本文总阅读量 次 本站总访问量 次 本站总访客数
Home Archives Categories Tags Statistics