Skip to main content

附录B Nvidia各个型号GPU的架构和内存模型

NVIDIA 的 GPU 架构发展是一部从图形处理迈向通用计算,并最终引领人工智能浪潮的技术史诗。下面我将为你梳理其发展历程、架构设计细节以及各代架构的演变。

NVIDIA 的 GPU 架构发展是一部从图形处理迈向通用计算,并最终引领人工智能浪潮的技术史诗。其架构设计始终围绕着并行计算效率这一核心,通过不断演进的 SM(Streaming Multiprocessor,流式多处理器) 结构、专用计算单元(如 Tensor Core、RT Core)和多层次内存系统,来满足日益增长的计算需求。

1. NVIDIA GPU 架构发展历程概览

1.1. 发展历程

以下是 NVIDIA 近年来主要 GPU 架构的发布时间、核心特性及代表性产品,帮助你快速了解其演进脉络:

架构名称发布时间核心创新与特点代表产品工艺制程关键计算特性
Tesla2006年引入统一着色器架构CUDA,开启GPU通用计算时代;全面支持DirectX 10GeForce 8800 Ultra90nm128个流处理器(CUDA核心前身)
Fermi2010年首次支持ECC显存保护,引入双精度浮点运算,优化科学计算性能GeForce GTX 480-480个CUDA核心
Kepler2012年引入GPU Boost动态超频技术,优化能效比GeForce GTX 680-1536个CUDA核心
Maxwell2014年能效优化,SM单元设计实现更高能效GeForce GTX 980--
Pascal2016年专为深度学习设计,支持所有主流深度学习计算框架;引入NVLink互联GeForce GTX 1080 Ti16nm支持混合精度计算(FP16)
Volta2017年首次引入Tensor Core,加速矩阵运算;大幅提升深度学习训练与推理速度Tesla V100-内置张量核心(Tensor Core)
Turing2018年首款集成RT Core(光线追踪核心)与Tensor Core(AI核心),支持DLSS(深度学习超采样);实现实时光线追踪GeForce RTX 2080 Ti12nm4352个CUDA核心
Ampere2020年第二代RT Core与第三代Tensor Core;DLSS 3实现帧生成技术,AI算力提升2倍GeForce RTX 30908nm10496个CUDA核心;支持TF32, FP64精度;稀疏计算
Ada Lovelace2022年第四代Tensor Core,支持FP8精度计算;第三代RT Core;引入着色器执行重排序(SER)技术和DLSS 3技术GeForce RTX 4090-FP8精度计算
Hopper2022年面向AI和HPC市场;采用第三代张量核心和编程模型(如CUDA图)H1004nm (N4)支持FP8精度
Blackwell2024年第四代Tensor Core;第二代Transformer引擎;支持FP4精度NVLink 5.0;AI驱动渲染革命;DLSS 4B100, RTX 5090 D v2台积电4NP支持FP4精度;AI算力大幅提升
Rubin (预计)2026年将搭配下一代HBM4高带宽内存;与Vera CPU组成新一代超级芯片R100 (预计)台积电3nm预计AI算力进一步提升

1.2. 架构参数和文档

架构名称发布时间计算能力PCIeNVLinkTensor CoresRT Cores架构文档
Tesla2006年1.x1.0---架构(英文)
Fermi2010年2.x2.0---Fermi架构(英文)
Kepler2012年3.x3.0---Kepler-GK110/210架构(英文)
Maxwell2014年5.x3.0---架构(英文)
Pascal2016年6.x3.01.0 (40 GB/s)--Pascal-TeslaP100架构(英文)
Volta2017年7.x3.02.0 (300 GB/s)第一代-Volta-TeslaV100架构(英文)
Turing2018年7.53.0-第二代第一代Turing架构(英文)
Ampere2020年8.x4.03.0 (600 GB/s)第三代第二代Ampere-A100架构(英文)
Ada Lovelace2022年8.94.03.0 (600 GB/s)第四代第三代ADA架构(英文)
Hopper2022年9.x5.04.0 (900 GB/s)第四代-Hopper-H100架构(英文)
Hopper-H100架构(中文) (注3)
Blackwell2024年12.x5.05.0 (1.8 TB/s)第五代第四代Blackwell架构(英文)

说明:

  • Tesla架构是NVIDIA首个通用并行计算(GPGPU)架构,也是从这个架构开始引入的CUDA,之前的GPU基本上只专用于图形渲染加速。注意:Tesla架构与此后的Tesla系列计算卡不同,后者是用于高性能计算和科学计算的显卡系列。
  • Hopper架构主要面向数据中心和 AI 计算,其核心创新在于 Tensor Core 和 Transformer 引擎的极致优化,而非面向消费级游戏的RT Core,因此Hopper的显卡没有RT Core。
  • Volta架构开始引入第一代Tensor Core,Turing架构开始引入第一代RT Core。

1.3. 参考文档

2. NVIDIA GPU 架构设计详解

2.1. GPU核心阵列

现代NVIDIA GPU(特别是从Fermi架构开始)已经演变为一个高度并行的、集成众多专用处理单元的复杂芯片,而不仅仅是简单的图形处理器。

其核心设计理念是:一个由大量通用计算核心(CUDA Cores)组成的大规模并行阵列,并辅以多种专用处理器(如Tensor Core, RT Core)来高效处理特定的重型工作负载。

2.1.1. GPC/TPC/SM之间的关系

层级名称功能说明
GPUGraphics Processing Unit,图形处理单元一个完整的GPU显卡一个GPU会有多个GPC
GPCGraphics Processing Cluster,图形处理集群是GPU芯片内部最大的可独立运作的模块化分区一个GPC会有多个TPC
TPCTexture Processing Cluster,纹理处理集群是一个介于GPC和SM之间的中间管理层或组织单元一个TPC会有多个SM
SMStreaming Multiprocessor,流式多处理器是NVIDIA GPU最核心、最基础的计算单元,是所有计算实际发生的地方,是执行CUDA线程的最终硬件单元。一个SM会有一到多个不同种类的核心(如CUDA CoreTensor CoreRT Core)

说明: 他们之间的是层级的包含关系:GPU → GPC → TPC → SM → Core(CUDA, Tensor, RT)。

2.1.2. 产品举例

Hopper架构GH100 GPU

图1:完整的GH100 GPU核心

  • 8个GPC、9个TPC/GPC、2个SM/TPC。
  • 每个完整GPU内含8个GPC,72个TPC(89),144个SM(89*2)。
  • 6 个 HBM3 或 HBM2e 堆栈、12 个 512 位内存控制器
  • 60MB 二级缓存
  • 第四代 NVLink 和 PCIe 5.0

注意: 实际销售的产品可能并非完整版本,可能会有阉割版。请识别自己对应的型号,具体型号参数如下。

Ampere架构A100 GPU

图2:完整的A100 GPU核心

  • 8个GPC、8个TPC/GPC、2个SM/TPC。
  • 每个完整GPU内含8个GPC,64个TPC(88),128个SM(88*2)。但是A100 Tensor Core版实际上只有108个SM,说明他其实对SM是有阉割的(比完整版少了20个SM)。

注意: 实际销售的产品可能并非完整版本,可能会有阉割版。请识别自己对应的型号,具体型号参数如下。

2.2. SM结构说明

2.2.1. SM的组成

SM(Streaming Multiprocessor,流式多处理器)是NVIDIA GPU最核心、最基础的计算单元,是所有计算实际发生的地方,是执行CUDA线程的最终硬件单元。

  • CUDA Cores(CUDA 核心):用于执行单精度浮点(FP32)和整数(INT32)运算的基本单元。其数量是衡量 GPU 通用计算能力的关键指标之一。
  • Tensor Cores(张量核心):专为深度学习中的矩阵乘加运算(MMA)设计的专用硬件单元,支持多种精度(如 FP16, BF16, TF32, FP8, FP4),能极大加速 AI 训练和推理。
  • RT Cores(光线追踪核心):专门用于加速光线与三角形求交等光线追踪计算,是实现实时光线追踪的关键。
  • 特殊功能单元(SFU):执行一些特殊的数学运算。
  • 寄存器文件(Register File):为每个线程提供高速的私有存储空间。
  • 共享内存(Shared Memory) / L1 缓存:一个由 SM 内所有线程共享的高速、可编程的片上内存池,用于实现线程块内的数据交换和重用,对性能优化至关重要。

2.2.2. 产品举例

Hopper架构GH100的SM架构

图3:GH100流式多处理器(SM)

  • 每个 SM 内含 128(324) 个 FP32 CUDA Core 核心、每个完整 GPU 内含 18432(128144) 个 FP32 CUDA Core 核心
  • 每个 SM 内含 4 个第四代 Tensor Core 核心、每个完整 GPU 内含 576(4*144) 个第四代 Tensor Core 核心
Ampere架构A100的SM架构

图4:A100流式多处理器(SM)

  • 每个 SM 内含 64(164) 个 FP32 CUDA Core 核心、每个完整 GPU 内含 8192(64128) 个 FP32 CUDA Core 核心
  • 每个 SM 内含 4 个第三代 Tensor Core 核心、每个完整 GPU 内含 512(4*128) 个第四代 Tensor Core 核心

2.3. 内存模型(Memory Hierarchy)

GPU拥有一个复杂且高效的分层内存模型,以满足大量核心的数据需求。

  • 显存(VRAM - Video RAM)

    • 通常指GPU板卡上的高速GDDR6X/GDDR7或HBM(高带宽内存)
    • 容量大(几GB到几十GB),是GPU的全局内存,所有SM都可以访问,但延迟较高。
  • L2缓存(Level 2 Cache)

    • 所有SM共享的一块大型片上缓存。
    • 用于缓存显存中的数据,减少访问高延迟显存的次数,极大提升效率。
  • L1缓存/共享内存(L1 Cache / Shared Memory)

    • 位于每个SM内部。
    • 这是一块可由程序员灵活控制的高速、低延迟内存。共享内存(Shared Memory) 允许同一个线程块(Thread Block)内的线程相互通信和协作,对许多高性能计算算法至关重要。
  • 寄存器(Registers)

    • 位于每个SM中,是速度最快、延迟最低的内存。
    • 为每个线程独享,用于存储线程的局部变量和中间计算结果。

2.4. 互联与接口

  • PCIe接口(Peripheral Component Interconnect Express)

    • 连接GPU和CPU/主板的通道。当前主流是PCIe 4.0/5.0。带宽决定了数据从系统内存传输到显存的速度。
  • NVLink(高端/数据中心GPU):

    • NVIDIA开发的高速互联技术,用于连接多个GPU或多GPU与CPU(如Grace CPU)。
    • 带宽远高于PCIe(例如NVLink 4.0可达900 GB/s),允许GPU之间直接高速访问彼此的显存,对于大规模AI训练和科学计算至关重要。
  • 显示引擎(Display Engine)

    • 负责输出图像到显示器,支持各种显示标准,如DP(DisplayPort) 2.1, HDMI 2.1。
  • 媒体引擎(Media Engine)

    • 包含独立的硬件编码器(NVENC)和解码器(NVDEC),专门用于硬件加速视频的编码(如H.264, H.265/HEVC, AV1)和解码,极大减轻CPU负担。