GPU行业深度研究：AI大模型浪潮风起，GPU晶元再立潮头

（报告出品方/作者：中信建投证券，阎贵成、金戈、於芳博）

GPU晶元概述

GPU定义和主要组成

GPU（Graphics Processing Unit）：一般称为图形处理器，被广泛用於个人电脑、工作站、移动设备、游戏机、嵌入式系统中做图像和图形相关运算工作。 GPU结构：GPU是一个异构的多核处理器晶元，针对图形图像处理优化。通常包括运算单元、L0/L1/L2缓存、Warp调度器、存取单元、分配单元、寄存器堆、PCIe汇流排介面、显卡互联单元等组件。 GPU工作方式：GPU并不是一个独立运行的计算平台，需要通过PCIe汇流排与CPU连接在一起来协同工作，可以看作CPU的协处理器。

GPU相较於CPU并行计算能力更强

CPU当中运算单元占据面积相对较小。CPU硬体设计过程中为了实现低延迟增加了存储单元和控制单元的复杂度，运算单元在GPU中占据面积相对较小，以Intel Core i7 3960X为例，其运算单元面积（6*21.4 mm2）大致占总晶元面积（435 mm2）的30%。 CPU的并行计算能力相对较弱。CPU通过指令级并行、数据级并行也可以提升其并行计算能力，但是带来的提升也是有限的。单核CPU性能逐步逼近物理极限。由於CPU受到「能耗墙」的限制，CPU主频难以持续提升，单核CPU性能逐步逼近物理极限，采用多核CPU的策略一定程度缓解了CPU性能提升的制约，当前大数据和人工智慧带来了海量的数据，CPU已经无法跟上多源异构数据的爆炸性增长。

GPU具有数量众多的运算单元，采用极简的流水线进行设计，适合计算密集、易於并行的程序。CPU的运算单元数目相对较少，单一运算核心的运算能力更强，采用分支预测、寄存器重命名、乱序执行等复杂的处理器设计，适合相对复杂的串列运算。 GPU设计过程中侧重吞吐优化，具备强大的内存访问带宽。CPU设计过程中侧重时延优化，包含复杂的多级缓存（L1/L2/L3）和逻辑控制单元。 CPU承担运算核心和控制中心的地位，GPU一般作为协处理器负责图形渲染和并行计算。

GPU的核心功能一：图形渲染

GPU凭藉其较强的并行计算能力，已经成为个人电脑中图像渲染的专用处理器。图形渲染具体实现要通过五阶段：顶点着色、形状装配、光栅化、纹理填充着色、测试与混合。 GPU渲染流程：三维图像信息输入GPU後，读取3D图形外观的顶点数据後，1）在流处理器中构建3D图形的的整体骨架，即顶点处理；2）由光栅化处理单元把矢量图形转化为一系列像素点，即光栅化操作；3）在纹理映射单元实现纹理填充；4）在流处理器中完成对像素的计算和处理，即着色处理；5）在光栅化处理单元中实现测试与混合任务。至此，实现一个完整的GPU渲染流程。

GPU的核心功能二：通用计算

2003年，GPGPU(General Purpose computing on GPU, 基於GPU的通用计算)的概念首次被提出，意指利用GPU的计算能力在非图形处理领域进行更通用、更广泛的科学计算。GPGPU概念的提出，为GPU更为广泛的应用开拓了思路，GPGPU在传统 GPU的基础上进行了优化设计，部分GPGPU会去除GPU中负责图形处理加速的硬体组成，使之更适合高性能并行计算。 GPGPU在数据中心被广泛地应用在人工智慧和高性能计算、数据分析等领域。GPGPU的并行处理结构非常适合人工智慧计算，人工智慧计算精度需求往往不高，INT8、FP16、FP32往往可以满足大部分人工智慧计算。GPGPU同时可以提供FP64的高精度计算，使得GPGPU适合信号处理、三维医学成像、雷达成像等高性能计算场景。

微架构设计是GPU性能提升的关键所在

GPU微架构（Micro Architecture）是兼容特定指令集的物理电路构成，由流处理器、纹理映射单元、光栅化处理单元、光线追踪核心、张量核心、缓存等部件共同组成。图形渲染过程中的图形函数主要用於绘制各种图形及像素、实现光影处理、3D坐标变换等过程，期间涉及大量同类型数据（如图像矩阵）的密集、独立的数值计算，而GPU结构中众多重复的计算单元就是为适应於此类特点的数据运算而设计的。微架构的设计对GPU性能的提升发挥着至关重要的作用，也是GPU研发过程中最关键的技术壁垒。微架构设计影响到晶元的最高频率、一定频率下的运算能力、一定工艺下的能耗水平，是晶元设计的灵魂所在。英伟达H100相比於A100，1.2倍的性能提升来自於核心数目的提升，5.2倍的性能提升来自於微架构的设计。

GPU市场概述

GPU市场规模与细分

根据Verified Market Research的预测，2020年GPU全球市场规模为254亿美金，预计到2028年将达到2465亿美金，行业保持高速增长，CAGR为32.9%，2023年GPU全球市场规模预计为595亿美元。 GPU按应用端划分为PC GPU、伺服器GPU、智能驾驶GPU、移动端GPU。 PC GPU可以进一步划分为独立显卡和集成显卡。独立显卡主要用作图形设计和游戏，对性能的要求比较高，主要的厂商包括英伟达和AMD；集成显卡通常用在对图形处理性能需求不高的办公领域，主要产商包括Intel和AMD。伺服器GPU通常应用在深度学习、科学计算、视频编解码等多种场景，主要的厂商包括英伟达和AMD，英伟达占主导地位。在自动驾驶领域， GPU通常用於自动驾驶演算法的车端AI推理，英伟达占据主导地位。

PC显卡市场迎来至暗时刻後的光明

独立显卡市场开始逐渐回暖。根据Jon Peddie Research的数据，2022年独立GPU出货量下降至3808万台，同比下降22.5%， 22Q3单季度出货690万台，同比下降45.7%，是十年以来最大的一次下滑，独立显卡出货情况22Q4开始逐渐转暖。集成显卡出货情况仍然不容乐观。2022年集成GPU出货量为2.83亿台，同比下滑29.8%。疫情期间的居家办公需求带动了笔记本电脑的消费增长，集成显卡的购买激增一定程度上过早消耗了市场需求，後疫情时代，笔记本电脑端需求减弱叠加供应商的过剩库存导致集成显卡出货不断走低。我们认为2022年独立显卡出货遭遇巨大下滑的原因有三点：一、受宏观经济影响，个人电脑市场处於下行周期；二、部分独立GPU参与虚拟货币挖矿，以太坊合并对独立GPU出货造成巨大冲击；三、下游板卡厂商开启降库存周期。

GPU在数据中心的应用蕴藏巨大潜力

在数据中心，GPU被广泛应用於人工智慧的训练、推理、高性能计算（HPC）等领域。预训练大模型带来的算力需求驱动人工智慧伺服器市场快速增长。巨量化是人工智慧近年来发展的重要趋势，巨量化的核心特点是模型参数多，训练数据量大。Transformer模型的提出开启了预训练大模型的时代，大模型的算力需求提升速度显着高於其他AI模型，为人工智慧伺服器的市场增长注入了强劲的驱动力。根据Omdia数据，人工智慧伺服器是伺服器行业中增速最快的细分市场，CAGR为49%。战略需求推动GPU在高性能计算领域稳定增长。高性能计算（HPC）提供了强大的超高浮点计算能力，可满足计算密集型、海量数据处理等业务的计算需求，如科学研究、气象预报、计算模拟、军事研究、生物制药、基因测序等，极大缩短了海量计算所用的时间，高性能计算已成为促进科技创新和经济发展的重要手段。

人工智慧晶元的引领者——英伟达

GPU领域龙头英伟达发展史

英伟达（NVIDIA）创立於1993年，是一家专注於智能晶元设计和图形处理技术的半导体公司。公司产品应用领域包括游戏、数据中心、专业可视化、自动驾驶等，针对具体场景特点，英伟达推出了一系列特定优化的晶元和伺服器，同时积极打造相应的软体生态，成为GPU领域的龙头企业。公司当前不仅满足於晶元设计厂商的定位，在晶元、伺服器等硬体设施之上，开发CUDA、DOCA等基础软体架构，不断丰富其软体生态，形成了软体业务的全栈式解决方案，最终在应用层面上提供AI计算、高性能计算、自动驾驶、云游戏、元宇宙等众多计算服务，公司已从一家GPU公司成功转型计算平台企业。

公司盈利能力历史表现优异

公司FY2023年实现营业收入269.74亿美元，与FY2022年同比基本持平。数据中心业务保持快速增长趋势，游戏业务、专业可视化业务营收相对下滑。FY23Q4营业收入为60.5亿美元，同比下降21%，但是环比提升2%,收入业绩的恢复性增长主要得益於游戏业务的快速复苏。公司FY24Q1营收指引为65亿，整体业务重回环比正增长阶段。 FY2023年GAAP净利润43.68亿美元，同比下降55.21%。第四季度GAAP净利润6.8亿美元，同比下降72%。FY2023财年游戏显卡以及数据中心计算晶元的需求相对疲软，供大於求带来了较高的库存水平，导致了大额的资产减值损失，净利润水平有所下滑。

2022年公司营收结构发生较大变化

公司FY2023营收结构发生较大变化，数据中心业务成为主要收入来源，占比55.63%，游戏业务占比下滑。 FY2023数据中心业务营收达150亿美金，同比增长55.6%，该业务是公司的未来成长引擎，得益於人工智慧算力的需求高增，业务保持中长期良好增长态势，FY23Q4受云厂商资本开支影响，以及中国市场需求相对疲软，营收略有下滑。 FY2023游戏业务营收为90.6亿美金，同比下滑27.3%，营收占比为33.6%。FY23Q2後，受显卡市场冲击，游戏业务营收连续两个季度下滑，FY23Q4得到恢复性增长。 FY2023专业可视化业务营收达15.44亿美金，同比下滑26.7%。 FY2023汽车业务营收达到9.03亿美元，同比增长59.5%，主要受益於自动驾驶解决方案的销售增长，营收占比从2021年的 2.1%上升到3.35%。

公司游戏GPU具有显着的技术优势

GeForce RTX 40系列显卡实现游戏性能的大幅提升。GeForce RTX 40系列显卡采用英伟达Ada Lovelace架构，采用第三代 RT Core技术实现全景光追性能提升至4倍，DLSS 3技术让渲染帧率成倍增加，配合着色器执行重排序技术、Nvidia Reflex等技术使其性能相较於Ampere架构提升至两倍以上。

公司逐步成为全球AI晶元领域的主导者

英伟达的通用计算晶元具备优秀的硬体设计，通过CUDA架构等全栈式软体布局，深度挖掘晶元硬体的性能极限，在各类下游应用领域中，均推出了高性能的软硬体组合，逐步成为全球AI晶元领域的主导者。早期英伟达在数据中心的产品布局主要为GPU加速伺服器。通过不同型号的GPU加速器与CPU、DPU等其他硬体产品组合以及软体的开发，英伟达还推出了面向高性能计算(HPC)、人工智慧(DGX)、边缘计算(EGX)等领域中的硬体产品。

全球第二大GPU厂商——AMD

AMD简介

美国超威半导体公司(Advanced Micro Devices，AMD)创立於1969年，专门为计算机、通信和消费电子行业提供各类微处理器以及提供快闪记忆体和低功率处理器方案，公司是全球领先的CPU、GPU、APU和FPGA设计厂商，掌握中央处理器、图形处理器、快闪记忆体、晶元组以及其他半导体技术，具体业务包括数据中心、客户端、游戏、嵌入式四大部分。公司采用 Fabless研发模式，聚焦於晶元设计环节，制造和封测环节则委托给全球专业的代工厂处理。目前全球CPU市场呈Intel 和AMD寡头垄断格局, Intel占主导地位。在独立GPU市场中，主要是英伟达（NVIDIA）、AMD进行角逐,Intel目前凭藉其锐炬Xe MAX产品也逐步进入独立GPU市场。

AMD保持良好的增长态势

得益於公司数据中心、嵌入式业务的快速增长，公司营收和净利润实现规模提升。2022年公司营业收入236亿美元，同比增长43.6%；2022Q4公司营收55.99亿美元，同比增长16%。 2022年公司净利润13.2亿美元，同比下降58.25%；2022Q4净利润0.21亿美元，同比下降98%，主要原因系收购赛灵思的无形资产摊销导致净利润下滑。公司预期2023Q1营收53亿美元，同比下滑10%。客户和游戏的细分市场预计会同比下降，部分被嵌入式和数据中心细分市场增长所抵消。

AMD分业务营收情况

公司营收主要包括四部分。数据中心业务主要包括用於数据中心伺服器的各类晶元产品；客户端业务主要包括用於PC 的各类处理器晶元；游戏业务主要包括独立GPU及其他游戏产品开发服务；嵌入式业务主要包括适用於边缘计算的各类嵌入式计算晶元。公司数据中心、嵌入式业务的营收增长较快。2022年，公司数据中心业务收入60.43亿美元，营收占比25.60%；客户端业务收入62.01亿美元，营收占比26.27%；游戏业务收入68.05亿美元，营收占比28.83%；嵌入式业务收入45.52亿美元，营收占比19.29%。

AMD ROCm计算生态

AMD ROCm是Radeon Open Compute (platform)的缩写，是2015年AMD公司为了对标CUDA生态而开发的一套用於HPC和超大规模GPU计算提供的开源软体开发平台。ROCm之於AMD GPU相当於CUDA之於英伟达GPU。 ROCm是一个完整的GPGPU生态系统，在源码级别上实现CUDA程序支持。ROCm在整体架构上与CUDA类似，实现了主要模块的对齐，封装层次较CUDA更为复杂。ROCm由以下组件组成：HIP程序、ROC运行库、ROCm库、ROCm核心驱动，ROCm支持各类主流的深度学习框架，例如Tensorflow 、PyTorch、Caffe等。

移动GPU厂商

移动端GPU采用不同的架构设计

移动端GPU在设计过程中受到能耗和体积方面的限制，都是以集成的SOC晶元形式出现在移动端，被广泛应用在手机、平板电脑、VR、AR设备、物联网设备当中。 SOC晶元中，CPU、GPU共享有限的内存带宽，频繁使用内存带宽会造成较大的能耗，通过采用分块渲染架构（TileBased Rendering，TBR）可以有效减少带宽消耗，其核心思想是：将帧缓冲分割为一小块一小块，然後在片上高速内存逐块进行渲染，与PC端采用的及时渲染架构（IMR）相比，极大的减少了DRAM的访问次数，从而降低了整体能耗。分块延迟渲染架构（TBDR）采用影藏面消除（HSR），不会渲染被遮挡的物体表面片，渲染效率进一步提升。

高通在旗舰Android智能手机SoC市场中保持领先

高通自研GPU源自2009年收购於AMD的移动GPU Imageon系列，後改名为Adreno，并集成到自家骁龙SoC中，发展至今已到「Adreno-7」系列，在全球旗舰Android智能手机SoC市场中保持领先。据IDC报告显示，2022Q3全球手机市场出货量下滑8%，高通手机业务营收仍实现40%增长；Counterpoint Research研究显示公司在AP/SoC晶元市场的份额从过往的25%左右提升至30%左右，稳占高端安卓市场。采用骁龙8 的OEM厂商和品牌包括华硕ROG、黑鲨、荣耀、联想、Motorola、努比亚、一加、OPPO、OSOM、realme、红魔、Redmi、vivo、小米和中兴等。

国内GPU厂商发展情况

国内GPU市场空间广阔

国内市场空间广阔，PC、伺服器拉动GPU需求。根据Verified Market Research数据，2020年中国GPU市场规模为47.39 亿美元，预计2023年中国GPU市场规模将达到111亿美元。中国数字化经济转型持续推进，催生大量对GPU的市场需求，给GPU带来广阔的市场空间。伴随着近期宏观经济回暖以及国内互联网企业纷纷加大AI算力布局，PC和伺服器的需求上升有望为国内GPU市场带来整体拉动效应。 GPU的国产替代过程中也需要克服诸多困难，例如：软体生态以及IP、先进工艺的生产不可控，缺乏人才储备，人力、时间、资金投入成本较高等。

海光信息提供伺服器、工作站中的高端处理器晶元

海光信息成立於2014年，主营业务是研发、设计和销售应用於伺服器、工作站等计算、存储设备中的高端处理器。产品包括海光通用处理器(CPU)和海光协处理器(DCU)，目前已经研发出多款新能达到国际同类主流产品的高端CPU和DCU产品。2018年10月，公司启动深算一号DCU产品设计，目前海光DCU系列深算一号已经实现商业化应用，2020年1月，公司启动了第二代DCU深算二号的产品研发工作。

报告节选：