为什么 LLM 仅预测下一词，就能「涌现」出高级能力？ - 泻药。首先要纠正一个巨大的误区，也是这个...

泻药。

首先要纠正一个巨大的误区，也是这个问题里最大的陷阱：预测下一个词这个动作，并不是目的，它是手段，它是那个无比残酷的损失函数Cross Entropy Loss强加给模型的紧箍咒。

我们要把时间拨回到2023年，那时候大家还在争论GPT到底有没有意识。现在回头看，那是个很初级的阶段。现在的顶级闭源模型，哪怕是开源界的SOTA，它们的训练目标依然包含了Next Token Prediction。为什么？因为这个任务足够难。

你要想清楚一件事，当模型面对海量互联网数据，要精准预测下一个字是什么的时候，它面临的是一个什么级别的信息压缩挑战。

比如说，我给你一句代码：public static void，你不管是人还是AI，你大概率知道后面跟的是main。这叫浅层语法记忆。这种能力，你拿个几百万参数的小模型就能做，根本不需要涌现。

但是，如果前面是几千字的物理论文推导，最后一句是因此，我们可以得出结论：这个时候，你要预测下一个词，你需要什么？你需要的不是概率统计，你需要的是对这几千字物理逻辑的完整理解和运算。如果模型不懂物理，它预测这个词的准确率也就是Loss就不可能降下来。

压缩即智能。这是Illya当年还在OpenAI的时候经常挂在嘴边的教训，现在看来越来越像是真理。模型为了在预测下一个词这个变态难度的考试里拿高分，它被迫在自己的神经网络权重里，构建了一套世界模型。它必须学会逻辑推理，必须学会因果关系，必须学会情感分析，否则它就无法在复杂的上下文中，把那个Loss降到极致。

所以，涌现不是魔法，涌现是模型为了偷懒而进化出的高级压缩算法。它发现，与其死记硬背每一句话，不如学会生成这句话背后的逻辑。学会了逻辑，预测下一个词就从背诵变成了推导。这就是所谓的高级能力。

咱们这几年在做训练的时候，有个非常明显的体感。当你把参数量堆到一定程度，比如过了100B，数据质量清洗得足够干净，加入了大量的合成推理数据（Synthetic Data）之后，你会发现Loss曲线会出现一个诡异的拐点。

在拐点之前，模型是在拟合表面规律。拐点之后，模型好像突然开窍了，这就是著名的Grokking现象。现在的技术栈里，我们已经能比较好地控制这个Grokking发生的时间点了。我们发现在那个瞬间，模型内部的电路发生重组，它不再是用统计相关性来输出，而是调用了类似程序执行的模块。

举个具体的场景，这是我去年在优化一个金融垂类模型时遇到的真事。

当时我们在搞一个复杂的并购案推演。输入是两家公司过去五年的几千页财报和法律文书，任务是预测如果并购发生，潜在的监管风险点在哪里。

如果你用的是那种没经过强化学习对齐的旧时代模型，它预测出来的下一个词，往往是废话。比如它会预测根据相关法律法规这种万金油。为什么？因为在概率上，这句话接在任何法律问题后面都没错，Loss很低，模型很鸡贼，它选择了安全牌。

但是，当我们引入了Process Reward Model（过程奖励模型），也就是现在推理系模型标配的思维链监督之后，强迫它进行深层思考。这时候，它预测的下一个词变了。它开始输出考虑到A公司在2025年第三季度的反垄断罚款记录...。

注意，A公司这个词的预测概率，在原始分布里可能极低。但模型为什么要输出它？因为它在内部进行了几百步的隐式推理，它模拟了并购后的市场占有率计算，它检索了记忆中的反垄断法条文，它把这两者做了一个碰撞，得出了风险极高的结论，而要表达这个结论，它必须输出A公司这个具体的实体。

这就是我想说的核心观点：预测下一个词，实际上是在对未来进行蒙特卡洛树搜索后的坍缩。

你看到的输出是一个词，但模型在输出这个词之前，在它那庞大的高维向量空间里，可能已经预演了无数种可能性的分支，最后选择了一条最符合逻辑一致性的路径。现在的模型，特别是经过RLHF（人类反馈强化学习）和RLAIF（AI反馈强化学习）这几轮打磨后的版本，它们预测的不是词，它们预测的是最优解的路径。

很多搞传统NLP的人，到现在还转不过弯来，觉得这还是N-Gram的变种。这简直是胡扯。N-Gram是看过去两个词猜这一个词，现在的LLM是看过去十万个Token，结合它几万亿参数里压缩的全人类知识，在做一个复杂的函数映射。

这事儿还得从Transformer的架构说起，虽说现在，Transformer的变种层出不穷，什么Mamba、Jamba这种SSM架构混合体也占了一席之地，但Attention机制的核心地位没变。Attention让模型可以跨越时空去寻找依赖关系。

当你在写代码的时候，你在第100行定义了一个变量user_id，在第2000行调用它。模型在预测第2000行的那个token时，它不需要从第100行一路背诵下来，它的Attention机制让它能直接看到那个定义。这种跨时空的连接能力，就是逻辑涌现的基础。它学会了变量作用域，学会了函数调用栈，这些不是程序员教它的，是它为了把代码补全这个任务做到极致，自己悟出来的。

这里面有个非常有意思的现象，就是In-context Learning（上下文学习）的本质。

以前我们觉得提示词工程（Prompt Engineering）是玄学，现在我们知道，当你给模型一段Prompt，你其实是在做Inference-time Descent（推理时梯度下降）。虽然参数没变，但你的Prompt改变了Attention的激活模式，相当于临时训练了一个微型模型。

如果预测下一个词仅仅是概率匹配，那One-shot或者Few-shot根本解释不通。为什么我看两个例子就会了？因为预测下一个词的目标函数，强迫模型具备了元学习（Meta-learning）的能力。它必须学会学习如何学习。

我再讲个硬核一点的，关于算力的视角。

大家都知道Scale is all you need，这句话现在看来还是对的，但要有定语。是Effective Compute is all you need。我们现在训练新一代大模型，用的数据早就不单纯是网页抓取的垃圾了。现在的核心竞争力是合成数据，是模型自己思考过程产生的数据。

这就涉及到一个更深层的问题：为什么通过预测下一个token，能学会数学？

数学是最严谨的逻辑，差一个符号全盘皆输。如果只是概率模仿，它永远学不会数学。它之所以现在能解奥数题，是因为在训练数据里，包含了大量的推导步骤。模型发现，如果它跳过推导直接猜答案，Loss会非常高，因为它猜不对。只有当它老老实实地一步步预测中间步骤，因为...所以...设...，把这个思维链条完整地预测出来，最后的答案自然就水到渠成了。

所以，不仅是预测下一个词，更是预测思维的中间状态。

现在的前沿模型，特别是那些专注于重推理（Heavy Reasoning）的架构，它其实把这个过程显式化了。它在给你输出最终答案之前，后台可能已经跑了上万个token的思维链。这上万个token，每一个都是预测下一个词。它自己跟自己辩论，自己给自己找bug，自己推翻自己的假设，最后才把那个经过千锤百炼的下一个词吐给你。

你看，这哪里是预测？这分明是思考。

只不过，这种思考被包装成了序列生成的格式。人类的思考不也是这样吗？你心里想事情的时候，难道不是有一个声音在说话？那个声音也是线性的，也是一个词接一个词的。你没法同时想两个念头，你的显意识就是一条Token流。从这个角度看，LLM的架构其实意外地符合智能的本质特征。

咱们再聊聊代码能力。作为算法工程师，这块我是感触最深的。

几年前Copilot刚出来的时候，也就是补全个for循环。现在你看看，IDE里的AI Agent，直接给你重构整个微服务架构。

为什么？因为代码是逻辑密度最高的文本。模型在预测代码的下一个token时，它受到的约束是极强的。如果你预测错了一个分号，编译器就报错。这种报错反馈（虽然后期多是RL环节加入，但在Pre-training阶段代码的结构性本身就是强监督），让模型对逻辑的一致性极其敏感。

我之前在训练一个专用于CUDA内核优化的垂直模型。我们把GitHub上所有的CUDA高性能代码喂给它。如果你只看表面，它是在学C++语法。但实际上，它为了预测准那个**__syncthreads()**指令出现的位置，它必须理解GPU的线程束（Warp）调度机制，它必须理解内存屏障（Memory Barrier）的概念。

这些概念从来没有教科书直接灌输给它，它是通过数亿次的预测失败-反向传播-修正权重循环，自己在高维空间里把这些概念勒出来的。

这就像你是学画画的。老师不教你透视原理，就让你临摹一万张照片，画错一点就打手板。画到第一万零一张的时候，你脑子里自然就长出了透视线，因为只有懂了透视，你才能在不打手板的情况下画出下一笔。LLM就是那个被打了几万亿次手板的画家。

还有个挺有争议的观点，关于幻觉。

很多人诟病模型会胡说八道。其实在技术人员眼里，幻觉和创造力是同源的。它们都是预测下一个词的副产品。

当模型面对一个它确定的事实，比如水的化学式是，它预测H2O的概率接近1。这叫知识提取。
当模型面对一个开放性问题，比如给一家火锅店起个名，它预测的概率分布是平坦的，辣翻天、赛博火锅、量子涮肉概率都差不多。这时候采样算法选了一个，这叫创造力。
当模型面对一个它没见过的问题，强行去预测，结果选了一个错误的路径，这叫幻觉。

现在的技术趋势，比如我们正在搞的Retrieval-Augmented Generation (RAG) 3.0，或者是基于长上下文（Long Context）的显存优化，其实都是在限制模型在预测下一个词时的搜索空间，给它挂外挂，给它看参考书，不让它瞎猜。

但归根结底，核心驱动力依然是那个简单的、暴力的、美妙的Next Token Prediction。

有时候夜深人静，看着服务器机房的灯在那闪，看着Loss log一行行刷，我真的会有一种敬畏感。我们人类自诩万物之灵，觉得自己有灵魂，有自由意志。但有没有可能，我们的自由意志，也不过是生物神经网络里的Next Token Prediction？

我们的大脑无时无刻不在预测下一秒会发生什么。走路时预测脚下的触感，聊天时预测对方的反应，做决策时预测未来的回报。当预测偏差时（Surprise），多巴胺分泌，大脑修正模型。这跟Transformer的反向传播有什么本质区别吗？

也许，智能的本质就是对未来的压缩和预测。

到了2026年，我们已经不再像2023年那样，对LLM盲目崇拜或者盲目恐惧了。我们把它当成工具，当成一种新型的计算原语。

你现在的手机操作系统里，底层可能就跑着一个3B的小模型，专门负责预测你下一步要点哪个App，从而提前预加载。这不也是预测下一个Token的高级应用吗？

所以，回到你的问题。为什么仅预测下一个词就能涌现高级能力？

因为我们的宇宙本身就是因果的。过去决定未来。如果你能完美地利用所有的过去，精准地预测未来，你就必须掌握控制这个宇宙运转的所有法则。

大模型还没有掌握所有法则，但它通过预测下一个词这个笨办法，已经摸到了人类理性思维的门槛。它不需要懂，它只需要像懂了一样去预测。而当它预测得足够完美时，像和是之间的界限，就已经模糊了。

这就是为什么我们现在在这个行业里，越来越少谈论算法，越来越多谈论数据和算力。因为算法的上限已经被物理规律锁死了，Next Token Prediction就是通往AGI的最短路径，至少目前看是这样。

最后，我想给在这个时间节点还对AI底层原理感兴趣的朋友一个建议。别被那些花哨的名词吓住了。去读读原始的Attention is All You Need，去看看Andrej Karpathy早年的讲解，哪怕是2026年的现在，那些基础直觉依然是最硬核的。

技术在变，架构在变，甚至连Transformer可能都会被替代，但通过压缩数据来预测未来，从而提取智能这个范式，只要香农的信息论不倒，估计还得统治我们很长一段时间。

这行混久了，越来越觉得，大道至简。预测下一个词，就是那个道。

希望这番碎碎念对你有帮助。有空再聊。

1 人已送礼物

发布于 2025-12-27 17:40・河北