英伟达将向中国出口定制GPU,又贵又慢的定制版显卡要来了,你的钱包准备好了么
美国芯片企业英伟达公司的首席执行官黄仁勋12月6日表示,在生产“最好的”人工智能芯片的竞赛中,华为是英伟达“非常强大”的竞争对手之一。他透露,英伟达正在与美国政府密切合作,确保面向中国市场的新芯片符合出口限制。这意味着,中国消费者想要购买英伟达的最新GPU,可能要付出更高的价格和更长的等待时间。那么,英伟达的GPU到底有多好?有没有其他的替代品呢?
美国对中国的芯片出口管制
美国政府近年来对中国的芯片出口实施了一系列的限制措施,旨在遏制中国半导体产业的发展,保护美国的国家安全和外交利益。根据美国商务部产业安全局(BIS)的新规,美国出口商需要获得许可,才能向中国出口一些先进计算芯片和半导体制造物项,特别是那些涉及到超级计算、军事、核能等敏感领域的物项。此外,美国政府还将一些中国的芯片企业,如华为、中芯国际、长江存储等,列入了实体清单,禁止美国企业与其进行任何商业往来。
这些出口管制对英伟达造成了不小的困扰,因为中国是英伟达的最大市场之一,占其总收入的约20%。英伟达的GPU在中国广泛应用于游戏、数据中心、人工智能、云计算等领域,受到了众多消费者和企业的青睐。为了应对美国政府的限制,英伟达不得不为中国市场设计一些定制版的GPU,以符合出口规则。这些定制版的GPU可能会牺牲一些性能和功能,同时也会增加英伟达的生产成本和交货时间。黄仁勋在接受《金融时报》采访时说:“如果我们被剥夺了中国市场,我们是没有应急措施的,(世界上)没有另一个中国,只有一个中国。”
GPU在AI算力上的重要性
GPU(图形处理器)是一种专门用于处理图形相关的并行计算任务的芯片,例如渲染、光线追踪、视频编解码等。GPU通常具备高性能、高并行度、高吞吐量和低延迟等特点,以满足实时图形渲染和交互的需求。GPU的并行计算优势使其在人工智能领域也发挥了重要的作用。
人工智能相关的计算任务通常涉及大量的矩阵运算、卷积运算、激活函数运算等,这些运算都是可以并行化的,也就是说可以同时执行多个相同或者相似的运算。CPU(中央处理器)是一种通用的计算芯片,可以执行各种类型的计算任务,但是对于人工智能相关的计算任务,CPU的性能并不理想。CPU的核心数量相对较少(通常在4-64之间),每个核心可以执行多个线程(通常在2-8之间),每个线程可以执行一个运算。因此,CPU的并行度相对较低(通常在几十到几百之间),无法充分利用人工智能计算任务的并行性。
GPU的核心数量相对较多(通常在几百到几万之间),每个核心可以执行一个线程(通常在1-2之间),每个线程可以执行一个运算。因此,GPU的并行度相对较高(通常在几千到几十万之间),可以充分利用人工智能计算任务的并行性。此外,GPU还拥有专门设计的Tensor Core核心,可以在单个时钟周期内执行矩阵运算,进一步提升人工智能计算任务的性能。因此,在相同频率和功耗下,GPU的人工智能计算性能要远远高于CPU。¹
GPU在人工智能领域的应用主要包括两个方面:训练和推理。训练是指使用大量的数据来训练人工智能模型,使其能够学习到数据中的规律和特征,从而完成特定的任务,例如图像识别、语音识别、自然语言处理等。推理是指使用训练好的人工智能模型来对新的数据进行预测和分析,例如人脸识别、语音合成、机器翻译等。GPU可以加速人工智能模型的训练和推理过程,提高其准确性和效率,从而实现更多的人工智能应用场景。
英伟达的GPU地位
英伟达(NVIDIA)是全球最大的独立GPU供应商,也是人工智能芯片市场的领导者。英伟达在GPU领域拥有强大的技术优势和创新能力,其GPU在人工智能领域有以下几个方面的优势和创新:
- CUDA:CUDA(Compute Unified Device Architecture)是英伟达推出的一种通用并行计算平台和编程模型,可以让开发者利用GPU的强大计算能力来加速各种类型的应用计算。CUDA提供了一套完整的软件工具和库,支持多种编程语言和操作系统,简化了GPU编程的难度和复杂度。CUDA还提供了一套丰富的生态系统,包括各种深度学习框架(如TensorFlow、PyTorch、MXNet等)、机器学习库(如cuDNN、cuML、RAPIDS等)、科学计算库(如cuBLAS、cuFFT、cuSPARSE等)等,可以帮助开发者快速构建和部署人工智能应用程序。
- Tensor Core:Tensor Core是英伟达在较新的微架构中专门设计的一种混合精度核心,可以在单个时钟周期内执行矩阵运算,从而大幅提升人工智能计算的效率和性能。Tensor Core可以支持FP16(16位浮点数)、TF32(19位有效位数)、BF16(16位有效位数)、INT8(8位整数)等不同的数据格式,以适应不同的人工智能应用场景。Tensor Core还可以与其他核心(如FP32、INT32等)协同工作,实现更高的计算精度和灵活性。
- Ampere:Ampere是英伟达在2020年推出的最新的GPU微架构,也是目前市场上最先进的GPU微架构之一。Ampere在性能、能效、可扩展性等方面都有显著的提升,尤其是在人工智能计算方面,Ampere的性能是上一代微架构(Turing)的6倍以上。Ampere的核心产品包括A100、RTX 30系列、Jetson Xavier NX等,分别针对数据中心、游戏、边缘计算等不同的市场和应用场景。
- Grace:Grace是英伟达在2021年发布的首款数据中心CPU,也是一款专为人工智能计算而设计的CPU。Grace的特点是采用了ARM的架构,可以与英伟达的GPU实现紧密的互联和协同,从而提高人工智能计算的吞吐量和效率。Grace还支持NVLink和HBM2e等高速的内存和互连技术,可以实现高达900GB/s的内存带宽,以及高达600GB/s的互连带宽。Grace预计将在2023年投入商用,主要面向超级计算、自然语言处理、推荐系统等高性能的人工智能应用。