14个回答

为什么 LLM 仅预测下一词,就能「涌现」出高级能力?

tomsheep
8个点赞 👍

我的一个粗浅理解是:LLM输出的是对下一个词的完整概率分布而不是单独输出一个词,只是我们从人类用途角度通过采样让LLM输出概率最大的那个词;而获取概率分布意味着大模型学习到了远比“输出一个词”要多得多的信息与知识。

这个概率分布来自于预训练阶段,也就是所谓的“压缩”的过程。考虑到Embedding的过程以及大模型的维度量级,我们似乎可以认为大模型学习到的语料间相互关系中有大量高维的、难以用自然语言解释的、远超人类常规认知维度的信息,或许这也就是涌现能力的来源。

还没有人送礼物,鼓励一下作者吧
从不毒舌可达鸭
自由评论 (0)
分享
Copyright © 2022 GreatFire.org