争夺AI核心算力市场，国产GPU发展得怎么样了？

发布时间：2023-03-17 14:21:50 所属栏目：动态来源：

导读：GPT-4的发布以及百度大脑全面植入微软Office微软全家桶，也正在全球无可争议地掀起新一轮无可比拟的人工智能（AI）风暴。

作为目前应用最广泛的AI芯片，GPU获得广泛关注。中国工程院院士、清华大学计算机系教授郑

GPT-4的发布以及百度大脑全面植入微软Office微软全家桶，也正在全球无可争议地掀起新一轮无可比拟的人工智能（AI）风暴。

作为目前应用最广泛的AI芯片，GPU获得广泛关注。中国工程院院士、清华大学计算机系教授郑纬民日前表示，ChatGPT需要三万多片英伟达A100GPU，初始投入成本约8亿美元。

AI时代渐近，GPU需求的高速增长几乎毋庸置疑，在美国禁售高速GPU的背景下，国内GPU企业当自强。如今GPU的国产化进程如何？国产厂商又将面临哪些机遇和挑战？

与CPU相比，GPU的逻辑运算单元较少，单个运算单元（ALU）处理能力更弱，但能够实现多个ALU并行计算。同样运行3000次的简单运算，CPU由于串行计算，需要3000个时钟周期，而配有3000个ALU的GPU运行只需要1个时钟周期。

作为计算机的图形处理以及并行计算内核，GPU最基本的功能是图形显示和分担CPU的计算量，主要可以分为图形图像渲染计算 GPU和运算协作处理器 GPGPU（通用计算图形处理器），后者去掉或减弱GPU的图形显示能力，将其余部分全部投入开放式通用深度学习计算，实现深度学习处理驱动的人工智能、高性能的专业深度学习计算等加速应用。

应用于人工智能场景的服务器通常搭载GPU、FPGA、ASIC等加速芯片，加速芯片和CPU结合能够支撑高吞吐量的运算需求，为图形视觉处理、语音交互等场景提供算力支持。GPU在架构设计上擅长进行大量数据运算，被广泛应用于AI场景中。

英伟达CEO黄仁勋称，英伟达的GPU在过去10年中将AI处理性能提高了不低于100万倍，在接下来的10年里，希望通过新芯片、新互连、新系统、新操作系统、新分布式计算算法和新AI算法，并与开发人员合作开发新模型，“将人工智能再加速100万倍”。

“目前国际的GPU行业市场主要由英伟达和AMD（美国超威半导体）两家占据。近些年，国外GPU技术快速发展，已经大大超出了其传统功能的范畴。”华安嘉业相关负责人告诉第一财经。

英伟达靠游戏业务发家，近年来在数据中心AI、汽车、元宇宙领域持续发力。2007年，英伟达首次推出通用并行计算架构CUDA(Compute Unified Device Architecture，统一计算设备架构)，使GPU成为通用并行数据处理加速器，即GPGPU。CUDA 支持 Windows、Linux、MacOS 三种主流操作系统，支持CUDA C语言和OpenCL及CUDA Fortran语言。

CUDA 架构不用再像过去GPU架构那样将通用计算机映射到图形API（应用程序编程接口）中，大大降低了CUDA 的开发门槛。因此，CUDA推出后发展迅速，广泛应用于石油勘测、天文计算、流体力学模拟、分子动力学仿真、生物计算、图像处理、影视频编解码等领域。

AMD在2006年收购著名显示芯片厂商ATI，后者一度与英伟达在GPU市场平分秋色。2019年，AMD发布RDNA架构产品Radeon RX 5700，其采用7nm工艺、GDDR6显存、PCI-e 4.0总线，使得其性能跑分超过英伟达的GeForce GTX 1080；2020年发布AMDRDNA 2架构，实现性能提升1倍、能效提升至少50%、完整支持DX12U和光线追踪等目标。

“如果未来十年如黄仁勋所说，AI会再产生100万倍需求，我觉得算力是一个非常吸引人的投资环节。英伟达在美股 Forward 12个月的 PE远远高于平均水平，约50倍，其他半导体公司在20倍左右，这正是源于AI带来的快速增长。就像10多年前看智能手机，四、五年前看电动车一样，人工智能将给半导体产业带来巨大的推动作用，这就是信息革命。”某基金制造业分析师对第一财经表示。

AI的实现包括训练和推理两个环节，前者是指通过大量标记过的数据训练出一个复杂的神经网络模型，使其能够适应特定的功能；后者指利用训练好的模型，使用新数据推理出各种结论。

英伟达在中国加速芯片领域占据绝对优势。根据天数智芯数据，2021年英伟达在中国云端AI训练芯片市场的份额达到90%。IDC数据显示，2021年，中国加速卡出货量超过80万片，其中英伟达占据超过80%市场份额。

一方面，性能先进性体现在高精度浮点计算能力。训练需要密集的计算得到模型，没有训练，就不可能会有推理。而训练需要更高的精度，一般来说需要float型，如FP32，32位的浮点型来处理数据。

另一方面，生态也是GPGPU发展需要解决的问题。英伟达早在CUDA问世之初就开始生态建设，AMD和Intel也推出了自研生态ROCm和one API，但CUDA凭借先发优势早已站稳脚跟。为解决应用问题，AMD和Intel通过工具将CUDA代码转换成自己的编程模型，从而实现针对 CUDA 环境的代码编译。

这也是国内厂商面临的困境。当前国内GPU厂商纷纷大力投入研发迭代架构，谋求构建自主软硬件生态。

尽管市场空间巨大，但相比英伟达和AMD，国内GPU厂商的营收规模较小。财报显示，国内GPU龙头企业景嘉微（300474.SZ）2022年前三季度营收为7.29亿元，而英伟达2023财年第四财季营收就超过60 亿美元。

海光信息（688041.SH）的DCU也属于GPGPU的一种，其DCU协处理器全面兼容ROCm GPU计算生态。据悉，ROCm和CUDA在生态、编程环境等方面高度相似，CUDA用户可以以较低代价快速迁移至ROCm平台，因此ROCm也被称为“类CUDA”，主要部署在服务器集群或数据中心，为应用程序提供高性能、高能效比的算力，支撑高复杂度和高吞吐量的数据处理任务。

摩尔线程告诉第一财经，目前公司已推出的产品包括基于MUSA架构打造的两颗全功能GPU芯片——“苏堤”和“春晓”；面向信创市场的桌面级显卡MTT S10、MTT S30和MTT S50；中国首张国产游戏显卡MTT S80；为数据中心打造的全功能GPU产品MTT S2000和MTT S3000、首个元宇宙计算平台MTVESRSE、GPU物理引擎AlphaCore、DIGITALME数字人解决方案和AIGC内容生成平台等。

沐曦集成电路产品涉及MXN AI推理芯片、MXC GPGPU、MXG图形渲染GPU等，第一财经了解到，2023年公司或将有第一款产品发布。

“国内GPU芯片的研制虽然可以满足目前大多数图形应用需求，但在科学计算、人工智能及新型的图形渲染技术方面仍然和国外领先水平存在不小差距。”上述负责人表示。

“作为一个有着数十年发展历程且相当成熟的细分行业，很多基础问题已经有了定式和最优解，并且形成了可供授权的众多专利IP，绕开这些已有IP，既不现实也不划算。”上述负责人表示，所以，相对于“芯片里用谁的IP”这种问题，我们真正需要关注的是这些企业怎样更有效地利用现有商业化IP，快速完成产品迭代和团队磨合。“需要指出的是，外购IP并不意味着无法自主可控，但对主流的GPU封装测试企业的能力建设会提出的要求很高。”

目前，芯原股份拥有用于集成电路设计的GPU、NPU、VPU、DSP、ISP、Displayprocessor六大类处理器IP，以及1400多个数模混合IP和射频IP，均为公司团队自主研发的核心技术成果。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!