想知道需要什么显卡、需要多少张显卡,核心在于计算显存占用问题。想要丝滑流畅,你要保证完整加载整个模型权重,并预留一定的空间给KV-cache。你输入的上下文越长,占用额外的推理开销就会越大,KV-cache也就越大。
直接说答案,丝滑体验需要10张H100。
Deepseek V3和R1都是671B参数。在FP8下,1B参数 = 1GB显存。所以你要671GB显存。已知H100的显存单张是80GB。仅仅需要加载权重就需要9张H100了。通常想实现128K上下文,额外预留20%的显存作为推理开销,那就是805GB,那就得10张H100,凑出800GB显存。
当然,如果把题目当中的丝滑二字给去掉,也有一些野路子。由于Deepseek V3是MoE架构,每一次运行的时候并不会激活全部671B的参数,而是只激活39B。所以理论上你也可以只有39GB的显存,每次运行的时候从硬盘或者内存当中把需要的参数给加载到显存里面。这样算一张H100就够用了,80GB显存>39GB了。
这样的体验就不会丝滑,