我的一个粗浅理解是:LLM输出的是对下一个词的完整概率分布而不是单独输出一个词,只是我们从人类用途角度通过采样让LLM输出概率最大的那个词;而获取概率分布意味着大模型学习到了远比“输出一个词”要多得多的信息与知识。 这个概率分布来自于预训练阶段,也就是所谓的“压缩”的过程。考虑到Embedding的过程以及大模型的维度量级,我们似乎可以认为大模型学习到的语料间相互关系中有大量高维的、难以用自然语言解释的、远超人类常规认知维度的信息,或许这也就是涌现能力的来源。 送礼物 还没有人送礼物,鼓励一下作者吧 发布于 2025-11-03 17:25・江苏 赞同 83 条评论分享 收藏喜欢