网站同步微博,建站设计公司,莱芜金点子信息港交友,一般去哪个网站做写手NVIDIA GPU 架构
NVIDIA GPU 的 SM#xff08;Streaming Multiprocessor#xff09; 和 GPC#xff08;Graphics Processing Cluster#xff09; 是 GPU 架构中的关键组成部分。它们决定了 GPU 的计算能力和性能#xff0c;以下是对这两个参数的详细介绍#xff1a; 1. …NVIDIA GPU 架构
NVIDIA GPU 的 SMStreaming Multiprocessor 和 GPCGraphics Processing Cluster 是 GPU 架构中的关键组成部分。它们决定了 GPU 的计算能力和性能以下是对这两个参数的详细介绍 1. GPCGraphics Processing Cluster—— 图形处理集群
定义
GPC 是 GPU 中更高层次的组织单元负责管理多个 SM 和其它子单元协调图形渲染、计算任务的调度与执行。
性能意义
GPC 的数量直接影响 GPU 的渲染能力更多的 GPC 允许显卡在更复杂的场景下保持高性能。在最新架构中GPC 的设计进一步优化以支持更高分辨率、更复杂的几何和光追任务。
架构示意图
一个典型 NVIDIA GPU 的架构层级可以表示为
GPU├── GPC (Graphics Processing Cluster)│ ├── TPC (Texture/Processor Cluster)│ │ ├── SM (Streaming Multiprocessor)│ │ │ ├── CUDA 核心 (CUDA Cores)│ │ │ ├── 张量核心 (Tensor Cores)│ │ │ ├── RT 核心 (Ray Tracing Cores)│ │ │ └── 纹理单元 (Texture Units)│ │ └── PolyMorph Engine│ └── Raster Engine (光栅引擎)└── L2 Cache (共享缓存)TPCTexture/Processor Cluster每个 GPC 包含多个 TPC每个 TPC 包括两个 SM 单元。Raster Engine光栅引擎负责光栅化任务将 3D 场景转换为像素。PolyMorph Engine支持几何处理、顶点着色、投影等任务。L2 Cache为 GPC 提供数据缓存提高数据访问效率。
总体架构关系
GPC 是最顶层的计算集群包含多个 TPC。每个 TPC 包含多个 SM以及负责几何运算的 PolyMorph Engine。每个 SM 包含大量的 CUDA Core 和 Tensor Core分别执行标量计算和矩阵运算任务。CUDA Core 与 Tensor Core 是具体的计算执行单元协作完成复杂的并行计算任务。 通过 GPC 和 SM 的协同工作NVIDIA 显卡实现了强大的图形处理和计算性能能够满足游戏、渲染、AI 和科学计算的高需求任务。 2. TPCTexture/Processor Cluster—— 纹理/处理集群
TPC 是 NVIDIA GPU 架构中的中间层模块位于 GPC 和 SM 之间。它起到整合和协同 SM 工作的作用是 GPU 架构中关键的组织单元。
定义 TPC 是由 NVIDIA 定义的硬件集群单位包含多个 SM流多处理器 和纹理处理单元。TPC 作为 GPC 的子单元为 GPU 提供高效的计算和纹理处理能力。
架构位置
每个 TPC 包含 2 个 SM部分架构中可能不同如早期架构有单个 SM。每个 GPC图形处理集群包含多个 TPC。每个 GPU 包含多个 GPC因此整个 GPU 架构分为 GPU GPC TPC SM。 组成:
一个典型的 TPC 包含以下子模块 SMStreaming Multiprocessor TPC 的主要计算单元每个 TPC 包含 2 个 SM在 Ampere 和 Ada Lovelace 架构中。SM 内部包含 CUDA 核心、张量核心、RT 核心、纹理单元等。 纹理单元Texture Units 专门处理纹理采样、纹理过滤等任务。与 SM 协同工作加速纹理数据的加载和计算。 PolyMorph Engine多变形引擎 负责几何处理包括顶点变换、投影和曲面细分。每个 TPC 中包含一套独立的 PolyMorph 引擎。 缓存模块 包括一级缓存L1 Cache和纹理缓存为 SM 和纹理单元提供快速的数据访问能力。 功能:
TPC 是连接 GPC 和 SM 的桥梁主要功能包括 并行计算能力扩展 每个 TPC 通过包含多个 SM显著提升 GPU 的并行计算性能。 纹理处理 集成了纹理单元和纹理缓存用于高效处理游戏和渲染中的纹理任务如采样、过滤和贴图。 几何处理 PolyMorph 引擎负责几何阶段的计算例如顶点着色和几何曲面变换支持复杂的 3D 场景。 模块化扩展 NVIDIA 的 TPC 设计使 GPU 架构具备高度模块化方便扩展性能和功能适应不同的市场需求游戏、AI、科学计算。 架构变化
不同架构中 TPC 的设计有所变化
Pascal 架构如 GTX 10 系列每个 TPC 包含 1 个 SM。Turing 架构如 RTX 20 系列每个 TPC 包含 2 个 SM首次引入 RT 核心。Ampere 架构如 RTX 30 系列每个 TPC 包含 2 个 SM改进了张量核心和 RT 核心。Ada Lovelace 架构如 RTX 40 系列延续每 TPC 2 个 SM 的设计进一步优化性能。 示例分析RTX 4090 的 TPC 设计 RTX 4090 的架构细节 GPC 数量12TPC 数量72SM 数量128每 TPC 包含 2 个 SMCUDA 核心总数16,384每 SM 包含 128 个 CUDA 核心 每个 TPC 的具体配置 SM 数量2PolyMorph 引擎1纹理单元4每个 SM 包含 2 个纹理单元
这种设计允许 RTX 4090 在高分辨率和复杂场景中表现出色。 TPC 的重要性
TPC 的模块化设计在性能和效率上具有以下优势
性能扩展通过增加 TPC 的数量GPU 可线性扩展计算能力。灵活性TPC 内部功能整合度高可以适应计算密集型任务和图形渲染任务的需求。效率提升将 SM 和纹理单元紧密结合减少了数据传输的延迟。 TPC 是 NVIDIA GPU 架构中不可或缺的组成部分它在 SM、纹理单元和几何处理单元之间起到整合和调度的作用。通过 TPC 的模块化设计GPU 能够在性能和效率之间找到平衡同时支持不同的应用场景如游戏、图形渲染和深度学习。
3. SMStreaming Multiprocessor—— 流多处理器
定义
SM 是 NVIDIA GPU 的核心计算单元包含一组执行通用计算和图形任务的子模块。每个 SM 包含多个 CUDA 核心、TMU纹理映射单元、张量核心和其他支持单元。
组成与功能
CUDA 核心负责执行通用计算任务整数运算和浮点运算。张量核心加速深度学习任务中的矩阵计算。RT 核心用于处理光线追踪计算部分架构中。共享内存Shared Memory提供快速的中间数据存储。寄存器文件为线程分配寄存器资源。纹理和缓存单元加速纹理采样和数据读取。
性能意义
SM 的数量决定了 GPU 的并行计算能力更多的 SM 意味着可以处理更多的线程。现代 NVIDIA GPU 使用分级架构例如 Ampere、Ada Lovelace每一代的 SM 内部结构都有优化例如更高效的缓存、更强的计算单元。
示例
NVIDIA RTX 4090 拥有 128 个 SM每个 SM 包含 128 个 CUDA 核心总计 16,384 个 CUDA 核心。 码字不易若觉得本文对你有用欢迎点赞 、分享 相关技术热点时时看…