今天NVDA暴跌似乎是印证了前段时间的一个很流行的观点:DeepSeek打破了堆算力的神话,证明不需要那么高的算力也能做出来非常好用的大语言模型。但是我觉得其背后还有更加深刻的原因。
因为DeepSeek只是证明了要达到近似于o1的水平,只需要十分之一的成本就可以。这个对于算力的未来其实是可左可右的,往悲观说,目前算力的需求被过度夸张了;往乐观了说,现在算力足以堆起来更强大的AI。市场的反应还应该是根源于后者不太乐观。
首先,目前4o,包括o1的能力的提升,很大程度上是来自于对训练样本的精炼和对思维链(CoT)这个技巧的压榨。思维链有效的平滑了推理的流程,降低了推理的难度,让大语言模型可以沿着自己生成的链条继续推理,生成正确的答案。也就是说,就模型「原生」的推理能力来说,提升并没有那么显著。
但是,靠着思维链和高质量合成数据是不可能无限提高模型能力的。随着思维链的延长,模型在其中任何一步出错的概率也在增加,并且「如何把一个复杂问题有效的延展成一个思维链」本身就成为了一个推理问题,这个