为什么 LLM 仅预测下一词，就能「涌现」出高级能力？ - 我的一个粗浅理解是：LLM输出的是对下一...

我的一个粗浅理解是：LLM输出的是对下一个词的完整概率分布而不是单独输出一个词，只是我们从人类用途角度通过采样让LLM输出概率最大的那个词；而获取概率分布意味着大模型学习到了远比“输出一个词”要多得多的信息与知识。

这个概率分布来自于预训练阶段，也就是所谓的“压缩”的过程。考虑到Embedding的过程以及大模型的维度量级，我们似乎可以认为大模型学习到的语料间相互关系中有大量高维的、难以用自然语言解释的、远超人类常规认知维度的信息，或许这也就是涌现能力的来源。

还没有人送礼物，鼓励一下作者吧