这是一个特别有意思的问题,我个人认为,说明大家在充分消化了DeepSeek的技术后,开始真的认识到,现有的显卡可能是够的!
至少训练GPT-4o级的模型,可以说是绰绰有余的。
因为很简单,过去大家用的训练基本上是FP16/BF16,然后某些高精度的部分还是用FP32的。那它带来的优势是计算本身精度高,梯度下降只要是顺利的,只要LearnRate设置的小一些,慢慢训练总会得到一个不错的结果。
当然这种方式要求就是:大量的Nvidia 的算力卡。也就是为什么大家训练一个模型至少要万卡,十万卡。xAI的目标都到百万卡了。
但是FP8 不一样,它能表示的数值其实非常有限,于是它下降的其实很快,同时因为它只有8位的数据,对于大量的显卡间的通信能力要求也不像BF16那样高。结果是什么?
算力降下来了,显卡的带宽要求,数据的通信要求都是一种全面的下降。
这其实是DeepSeek给大家最大的冲击。本质上也要求什么呢? Nvidia过去的算力卡限制了两方面:算力与通信能力,尤其是通信能力的限制更大。实际上是