附录B Nvidia各个型号GPU的架构和内存模型

1. NVIDIA GPU 架构发展历程概览
2. NVIDIA GPU 架构设计详解

NVIDIA 的 GPU 架构发展是一部从图形处理迈向通用计算，并最终引领人工智能浪潮的技术史诗。下面我将为你梳理其发展历程、架构设计细节以及各代架构的演变。

NVIDIA 的 GPU 架构发展是一部从图形处理迈向通用计算，并最终引领人工智能浪潮的技术史诗。其架构设计始终围绕着并行计算效率这一核心，通过不断演进的 SM（Streaming Multiprocessor，流式多处理器） 结构、专用计算单元（如 Tensor Core、RT Core）和多层次内存系统，来满足日益增长的计算需求。

1. NVIDIA GPU 架构发展历程概览

1.1. 发展历程

以下是 NVIDIA 近年来主要 GPU 架构的发布时间、核心特性及代表性产品，帮助你快速了解其演进脉络：

架构名称	发布时间	核心创新与特点	代表产品	工艺制程	关键计算特性
Tesla	2006年	引入统一着色器架构与CUDA，开启GPU通用计算时代；全面支持DirectX 10	GeForce 8800 Ultra	90nm	128个流处理器（CUDA核心前身）
Fermi	2010年	首次支持ECC显存保护，引入双精度浮点运算，优化科学计算性能	GeForce GTX 480	-	480个CUDA核心
Kepler	2012年	引入GPU Boost动态超频技术，优化能效比	GeForce GTX 680	-	1536个CUDA核心
Maxwell	2014年	能效优化，SM单元设计实现更高能效	GeForce GTX 980	-	-
Pascal	2016年	专为深度学习设计，支持所有主流深度学习计算框架；引入NVLink互联	GeForce GTX 1080 Ti	16nm	支持混合精度计算（FP16）
Volta	2017年	首次引入Tensor Core，加速矩阵运算；大幅提升深度学习训练与推理速度	Tesla V100	-	内置张量核心（Tensor Core）
Turing	2018年	首款集成RT Core（光线追踪核心）与Tensor Core（AI核心），支持DLSS（深度学习超采样）；实现实时光线追踪	GeForce RTX 2080 Ti	12nm	4352个CUDA核心
Ampere	2020年	第二代RT Core与第三代Tensor Core；DLSS 3实现帧生成技术，AI算力提升2倍	GeForce RTX 3090	8nm	10496个CUDA核心；支持TF32, FP64精度；稀疏计算
Ada Lovelace	2022年	第四代Tensor Core，支持FP8精度计算；第三代RT Core；引入着色器执行重排序（SER）技术和DLSS 3技术	GeForce RTX 4090	-	FP8精度计算
Hopper	2022年	面向AI和HPC市场；采用第三代张量核心和编程模型（如CUDA图）	H100	4nm (N4)	支持FP8精度
Blackwell	2024年	第四代Tensor Core；第二代Transformer引擎；支持FP4精度、NVLink 5.0；AI驱动渲染革命；DLSS 4	B100, RTX 5090 D v2	台积电4NP	支持FP4精度；AI算力大幅提升
Rubin (预计)	2026年	将搭配下一代HBM4高带宽内存；与Vera CPU组成新一代超级芯片	R100 (预计)	台积电3nm	预计AI算力进一步提升

1.2. 架构参数和文档

架构名称	发布时间	计算能力	PCIe	NVLink	Tensor Cores	RT Cores	架构文档
Tesla	2006年	1.x	1.0	-	-	-	架构(英文)
Fermi	2010年	2.x	2.0	-	-	-	Fermi架构(英文)
Kepler	2012年	3.x	3.0	-	-	-	Kepler-GK110/210架构(英文)
Maxwell	2014年	5.x	3.0	-	-	-	架构(英文)
Pascal	2016年	6.x	3.0	1.0 (40 GB/s)	-	-	Pascal-TeslaP100架构(英文)
Volta	2017年	7.x	3.0	2.0 (300 GB/s)	第一代	-	Volta-TeslaV100架构(英文)
Turing	2018年	7.5	3.0	-	第二代	第一代	Turing架构(英文)
Ampere	2020年	8.x	4.0	3.0 (600 GB/s)	第三代	第二代	Ampere-A100架构(英文)
Ada Lovelace	2022年	8.9	4.0	3.0 (600 GB/s)	第四代	第三代	ADA架构(英文)
Hopper	2022年	9.x	5.0	4.0 (900 GB/s)	第四代	-	Hopper-H100架构(英文) Hopper-H100架构(中文) (注3)
Blackwell	2024年	12.x	5.0	5.0 (1.8 TB/s)	第五代	第四代	Blackwell架构(英文)

说明：

Tesla架构是NVIDIA首个通用并行计算（GPGPU）架构，也是从这个架构开始引入的CUDA,之前的GPU基本上只专用于图形渲染加速。注意：Tesla架构与此后的Tesla系列计算卡不同，后者是用于高性能计算和科学计算的显卡系列。
Hopper架构主要面向数据中心和 AI 计算，其核心创新在于 Tensor Core 和 Transformer 引擎的极致优化，而非面向消费级游戏的RT Core，因此Hopper的显卡没有RT Core。
Volta架构开始引入第一代Tensor Core，Turing架构开始引入第一代RT Core。

1.3. 参考文档

中文： https://www.nvidia.cn/technologies/
英文： https://www.nvidia.com/en-us/technologies/

2. NVIDIA GPU 架构设计详解

2.1. GPU核心阵列

现代NVIDIA GPU（特别是从Fermi架构开始）已经演变为一个高度并行的、集成众多专用处理单元的复杂芯片，而不仅仅是简单的图形处理器。

其核心设计理念是：一个由大量通用计算核心(CUDA Cores)组成的大规模并行阵列，并辅以多种专用处理器(如Tensor Core, RT Core)来高效处理特定的重型工作负载。

2.1.1. GPC/TPC/SM之间的关系

层级	名称	功能	说明
GPU	`Graphics Processing Unit`，图形处理单元	一个完整的GPU显卡	一个GPU会有多个GPC
GPC	`Graphics Processing Cluster`，图形处理集群	是GPU芯片内部最大的可独立运作的模块化分区	一个GPC会有多个TPC
TPC	`Texture Processing Cluster`，纹理处理集群	是一个介于GPC和SM之间的中间管理层或组织单元	一个TPC会有多个SM
SM	`Streaming Multiprocessor`，流式多处理器	是NVIDIA GPU最核心、最基础的计算单元，是所有计算实际发生的地方，是执行CUDA线程的最终硬件单元。	一个SM会有一到多个不同种类的核心(如`CUDA Core`、`Tensor Core`、`RT Core`)

说明： 他们之间的是层级的包含关系：GPU → GPC → TPC → SM → Core(CUDA, Tensor, RT)。

2.1.2. 产品举例

Hopper架构GH100 GPU

图1：完整的GH100 GPU核心

8个GPC、9个TPC/GPC、2个SM/TPC。
每个完整GPU内含8个GPC，72个TPC(89),144个SM(89*2)。
6 个 HBM3 或 HBM2e 堆栈、12 个 512 位内存控制器
60MB 二级缓存
第四代 NVLink 和 PCIe 5.0

注意： 实际销售的产品可能并非完整版本，可能会有阉割版。请识别自己对应的型号，具体型号参数如下。

Ampere架构A100 GPU

图2：完整的A100 GPU核心

8个GPC、8个TPC/GPC、2个SM/TPC。
每个完整GPU内含8个GPC，64个TPC(88),128个SM(88*2)。但是A100 Tensor Core版实际上只有108个SM，说明他其实对SM是有阉割的（比完整版少了20个SM）。

注意： 实际销售的产品可能并非完整版本，可能会有阉割版。请识别自己对应的型号，具体型号参数如下。

2.2. SM结构说明

2.2.1. SM的组成

SM(Streaming Multiprocessor，流式多处理器)是NVIDIA GPU最核心、最基础的计算单元，是所有计算实际发生的地方，是执行CUDA线程的最终硬件单元。

CUDA Cores（CUDA 核心）：用于执行单精度浮点（FP32）和整数（INT32）运算的基本单元。其数量是衡量 GPU 通用计算能力的关键指标之一。
Tensor Cores（张量核心）：专为深度学习中的矩阵乘加运算（MMA）设计的专用硬件单元，支持多种精度（如 FP16, BF16, TF32, FP8, FP4），能极大加速 AI 训练和推理。
RT Cores（光线追踪核心）：专门用于加速光线与三角形求交等光线追踪计算，是实现实时光线追踪的关键。
特殊功能单元（SFU）：执行一些特殊的数学运算。
寄存器文件（Register File）：为每个线程提供高速的私有存储空间。
共享内存（Shared Memory） / L1 缓存：一个由 SM 内所有线程共享的高速、可编程的片上内存池，用于实现线程块内的数据交换和重用，对性能优化至关重要。

2.2.2. 产品举例

Hopper架构GH100的SM架构

图3：GH100流式多处理器(SM)

每个 SM 内含 128(324) 个 FP32 CUDA Core 核心、每个完整 GPU 内含 18432(128144) 个 FP32 CUDA Core 核心
每个 SM 内含 4 个第四代 Tensor Core 核心、每个完整 GPU 内含 576(4*144) 个第四代 Tensor Core 核心

Ampere架构A100的SM架构

图4：A100流式多处理器(SM)

每个 SM 内含 64(164) 个 FP32 CUDA Core 核心、每个完整 GPU 内含 8192(64128) 个 FP32 CUDA Core 核心
每个 SM 内含 4 个第三代 Tensor Core 核心、每个完整 GPU 内含 512(4*128) 个第四代 Tensor Core 核心

2.3. 内存模型（Memory Hierarchy）

GPU拥有一个复杂且高效的分层内存模型，以满足大量核心的数据需求。

显存（VRAM - Video RAM）：
- 通常指GPU板卡上的高速GDDR6X/GDDR7或HBM（高带宽内存）。
- 容量大（几GB到几十GB），是GPU的全局内存，所有SM都可以访问，但延迟较高。
L2缓存（Level 2 Cache）：
- 所有SM共享的一块大型片上缓存。
- 用于缓存显存中的数据，减少访问高延迟显存的次数，极大提升效率。
L1缓存/共享内存（L1 Cache / Shared Memory）：
- 位于每个SM内部。
- 这是一块可由程序员灵活控制的高速、低延迟内存。共享内存（Shared Memory） 允许同一个线程块（Thread Block）内的线程相互通信和协作，对许多高性能计算算法至关重要。
寄存器（Registers）：
- 位于每个SM中，是速度最快、延迟最低的内存。
- 为每个线程独享，用于存储线程的局部变量和中间计算结果。

2.4. 互联与接口

PCIe接口（Peripheral Component Interconnect Express）：
- 连接GPU和CPU/主板的通道。当前主流是PCIe 4.0/5.0。带宽决定了数据从系统内存传输到显存的速度。
NVLink（高端/数据中心GPU）：
- NVIDIA开发的高速互联技术，用于连接多个GPU或多GPU与CPU（如Grace CPU）。
- 带宽远高于PCIe（例如NVLink 4.0可达900 GB/s），允许GPU之间直接高速访问彼此的显存，对于大规模AI训练和科学计算至关重要。
显示引擎（Display Engine）：
- 负责输出图像到显示器，支持各种显示标准，如DP(DisplayPort) 2.1, HDMI 2.1。
媒体引擎（Media Engine）：
- 包含独立的硬件编码器（NVENC）和解码器（NVDEC），专门用于硬件加速视频的编码（如H.264, H.265/HEVC, AV1）和解码，极大减轻CPU负担。

1. NVIDIA GPU 架构发展历程概览​

1.1. 发展历程​

1.2. 架构参数和文档​

1.3. 参考文档​

2. NVIDIA GPU 架构设计详解​

2.1. GPU核心阵列​

2.1.1. GPC/TPC/SM之间的关系​

2.1.2. 产品举例​

Hopper架构GH100 GPU​

Ampere架构A100 GPU​

2.2. SM结构说明​

2.2.1. SM的组成​

2.2.2. 产品举例​

Hopper架构GH100的SM架构​

Ampere架构A100的SM架构​

2.3. 内存模型（Memory Hierarchy）​

2.4. 互联与接口​