国内gpu供应商(摩尔线程，寒武纪，huawei)有追赶英伟达的可能吗？ - AI卡的性能由4个方面决定：Librar...

AI卡的性能由4个方面决定：Library，算力、显存和高速互联。

CUDA里面为矩阵运算和AI运算提供了很多的方法，NVIDIA为每种GPU、每种细分类型的运算、每种AI算子都提供了相应的高速汇编代码，比你直接写CUDA C的性能会高很多。此外，CUDA里面还有各种加速和优化神经网络参数的工具链。这些Library都是NVIDIA用大量人力经过许多年开发出来的，华为在这方面也没法堆这么多人，更别说其他GPU创业公司了。他们只能优化一些最常用的算子性能。做个不恰当的类比，摩尔线程S80硬件规模相当于3060，在极少数优化好的游戏可以做到1660的性能，但是大部分游戏只能做到1050不到甚至1030的性能，跟理论性能差距极大。幸好随着大模型的出现，AI算子的集中程度比游戏要高得多，优化起来会更容易。

算力的主要瓶颈在于半导体制程，不过好在现在台积电的工艺进步放缓了，让我们追赶起来更加的轻松。麒麟9000S的晶体管密度其实已经有B200的三分之二了，用类似的工艺做AI卡性能也不会差很多。

显存方面，AI卡跟游戏卡以及苹果M系列处理器不同，它需要高速的HBM显存才能满足带宽要求，目前大陆还无法生产HBM显存，这个可以说是我们目前差距最大的领域了。但是据说合肥长鑫今年有希望量产HBM，不知道性能如何。

高速互联分两个方面：机器内互联和机器间互联。NVIDIA的NVLINK目前双GPU带宽是1800GB/S，华为的HCCS只有不到100GB/S左右，差距有点大，但是使劲堆料的话还是可以追赶。其他国产GPU厂商目前还看不到对标的产品。机器互联方面，NVIDIA有性能极强的DPU以及超高速网络交换机，华为也有性能较强的网络设备，其他国产GPU厂商目前也没有对应产品。

最后纠正一下题目，题目里的三家公司，真正跟英伟达对标的数据中心GPU厂商只有华为，摩尔线程现在主要做游戏GPU，GPU的架构并不特别适合做AI卡（虽然他也有数据中心卡），寒武纪则是做个人设备的NPU，跟他类似的还有地平线、亿咖通（当然还有华为）。国内和英伟达对标的GPU厂商还有：沐熙，燧原，壁仞等。

编辑于 2024-03-22 10:24・IP 属地中国香港