14个回答

为什么 LLM 仅预测下一词,就能「涌现」出高级能力?

tomsheep
903个点赞 👍

泻药。

首先要纠正一个巨大的误区,也是这个问题里最大的陷阱:预测下一个词这个动作,并不是目的,它是手段,它是那个无比残酷的损失函数Cross Entropy Loss强加给模型的紧箍咒。

我们要把时间拨回到2023年,那时候大家还在争论GPT到底有没有意识。现在回头看,那是个很初级的阶段。现在的顶级闭源模型,哪怕是开源界的SOTA,它们的训练目标依然包含了Next Token Prediction。为什么?因为这个任务足够难。

你要想清楚一件事,当模型面对海量互联网数据,要精准预测下一个字是什么的时候,它面临的是一个什么级别的信息压缩挑战。

比如说,我给你一句代码:public static void,你不管是人还是AI,你大概率知道后面跟的是main。这叫浅层语法记忆。这种能力,你拿个几百万参数的小模型就能做,根本不需要涌现。

但是,如果前面是几千字的物理论文推导,最后一句是因此,我们可以得出结论:这个时候,你要预测下一个词,你需要什么?你需要的不是概率统计,你需要的是对这几千字物理逻辑的完整理解和运算。如果模型不懂物理,它预测这个词的准确率也就是Loss就不可能降下来。

压缩即智能。这是Illya当年还在OpenAI的时候经常挂在嘴边的教训,现在看来越来越像是真理。模型为了在预测下一个词这个变态难度的考试里拿高分,它被迫在自己的神经网络权重里,构建了一套世界模型。它必须学会逻辑推理,必须学会因果关系,必须学会情感分析,否则它就无法在复杂的上下文中,把那个Loss降到极致。

所以,涌现不是魔法,涌现是模型为了偷懒而进化出的高级压缩算法。它发现,与其死记硬背每一句话,不如学会生成这句话背后的逻辑。学会了逻辑,预测下一个词就从背诵变成了推导。这就是所谓的高级能力。

咱们这几年在做训练的时候,有个非常明显的体感。当你把参数量堆到一定程度,比如过了100B,数据质量清洗得足够干净,加入了大量的合成推理数据(Synthetic Data)之后,你会发现Loss曲线会出现一个诡异的拐点。

在拐点之前,模型是在拟合表面规律。拐点之后,模型好像突然开窍了,这就是著名的Grokking现象。现在的技术栈里,我们已经能比较好地控制这个Grokking发生的时间点了。我们发现在那个瞬间,模型内部的电路发生重组,它不再是用统计相关性来输出,而是调用了类似程序执行的模块。

举个具体的场景,这是我去年在优化一个金融垂类模型时遇到的真事。

当时我们在搞一个复杂的并购案推演。输入是两家公司过去五年的几千页财报和法律文书,任务是预测如果并购发生,潜在的监管风险点在哪里。

如果你用的是那种没经过强化学习对齐的旧时代模型,它预测出来的下一个词,往往是废话。比如它会预测根据相关法律法规这种万金油。为什么?因为在概率上,这句话接在任何法律问题后面都没错,Loss很低,模型很鸡贼,它选择了安全牌。

但是,当我们引入了Process Reward Model(过程奖励模型),也就是现在推理系模型标配的思维链监督之后,强迫它进行深层思考。这时候,它预测的下一个词变了。它开始输出考虑到A公司在2025年第三季度的反垄断罚款记录...

注意,A公司这个词的预测概率,在原始分布里可能极低。但模型为什么要输出它?因为它在内部进行了几百步的隐式推理,它模拟了并购后的市场占有率计算,它检索了记忆中的反垄断法条文,它把这两者做了一个碰撞,得出了风险极高的结论,而要表达这个结论,它必须输出A公司这个具体的实体。

这就是我想说的核心观点:预测下一个词,实际上是在对未来进行蒙特卡洛树搜索后的坍缩。

你看到的输出是一个词,但模型在输出这个词之前,在它那庞大的高维向量空间里,可能已经预演了无数种可能性的分支,最后选择了一条最符合逻辑一致性的路径。现在的模型,特别是经过RLHF(人类反馈强化学习)和RLAIF(AI反馈强化学习)这几轮打磨后的版本,它们预测的不是,它们预测的是最优解的路径

很多搞传统NLP的人,到现在还转不过弯来,觉得这还是N-Gram的变种。这简直是胡扯。N-Gram是看过去两个词猜这一个词,现在的LLM是看过去十万个Token,结合它几万亿参数里压缩的全人类知识,在做一个复杂的函数映射。

这事儿还得从Transformer的架构说起,虽说现在,Transformer的变种层出不穷,什么Mamba、Jamba这种SSM架构混合体也占了一席之地,但Attention机制的核心地位没变。Attention让模型可以跨越时空去寻找依赖关系。

当你在写代码的时候,你在第100行定义了一个变量user_id,在第2000行调用它。模型在预测第2000行的那个token时,它不需要从第100行一路背诵下来,它的Attention机制让它能直接看到那个定义。这种跨时空的连接能力,就是逻辑涌现的基础。它学会了变量作用域,学会了函数调用栈,这些不是程序员教它的,是它为了把代码补全这个任务做到极致,自己悟出来的。

这里面有个非常有意思的现象,就是In-context Learning(上下文学习)的本质。

以前我们觉得提示词工程(Prompt Engineering)是玄学,现在我们知道,当你给模型一段Prompt,你其实是在做Inference-time Descent(推理时梯度下降)。虽然参数没变,但你的Prompt改变了Attention的激活模式,相当于临时训练了一个微型模型。

如果预测下一个词仅仅是概率匹配,那One-shot或者Few-shot根本解释不通。为什么我看两个例子就会了?因为预测下一个词的目标函数,强迫模型具备了元学习(Meta-learning)的能力。它必须学会学习如何学习

我再讲个硬核一点的,关于算力的视角。

大家都知道Scale is all you need,这句话现在看来还是对的,但要有定语。是Effective Compute is all you need。我们现在训练新一代大模型,用的数据早就不单纯是网页抓取的垃圾了。现在的核心竞争力是合成数据,是模型自己思考过程产生的数据。

这就涉及到一个更深层的问题:为什么通过预测下一个token,能学会数学?

数学是最严谨的逻辑,差一个符号全盘皆输。如果只是概率模仿,它永远学不会数学。它之所以现在能解奥数题,是因为在训练数据里,包含了大量的推导步骤。模型发现,如果它跳过推导直接猜答案,Loss会非常高,因为它猜不对。只有当它老老实实地一步步预测中间步骤,因为...所以...设...,把这个思维链条完整地预测出来,最后的答案自然就水到渠成了。

所以,不仅是预测下一个词,更是预测思维的中间状态

现在的前沿模型,特别是那些专注于重推理(Heavy Reasoning)的架构,它其实把这个过程显式化了。它在给你输出最终答案之前,后台可能已经跑了上万个token的思维链。这上万个token,每一个都是预测下一个词。它自己跟自己辩论,自己给自己找bug,自己推翻自己的假设,最后才把那个经过千锤百炼的下一个词吐给你。

你看,这哪里是预测?这分明是思考。

只不过,这种思考被包装成了序列生成的格式。人类的思考不也是这样吗?你心里想事情的时候,难道不是有一个声音在说话?那个声音也是线性的,也是一个词接一个词的。你没法同时想两个念头,你的显意识就是一条Token流。从这个角度看,LLM的架构其实意外地符合智能的本质特征。

咱们再聊聊代码能力。作为算法工程师,这块我是感触最深的。

几年前Copilot刚出来的时候,也就是补全个for循环。现在你看看,IDE里的AI Agent,直接给你重构整个微服务架构。

为什么?因为代码是逻辑密度最高的文本。模型在预测代码的下一个token时,它受到的约束是极强的。如果你预测错了一个分号,编译器就报错。这种报错反馈(虽然后期多是RL环节加入,但在Pre-training阶段代码的结构性本身就是强监督),让模型对逻辑的一致性极其敏感。

我之前在训练一个专用于CUDA内核优化的垂直模型。我们把GitHub上所有的CUDA高性能代码喂给它。如果你只看表面,它是在学C++语法。但实际上,它为了预测准那个**__syncthreads()**指令出现的位置,它必须理解GPU的线程束(Warp)调度机制,它必须理解内存屏障(Memory Barrier)的概念。

这些概念从来没有教科书直接灌输给它,它是通过数亿次的预测失败-反向传播-修正权重循环,自己在高维空间里把这些概念勒出来的。

这就像你是学画画的。老师不教你透视原理,就让你临摹一万张照片,画错一点就打手板。画到第一万零一张的时候,你脑子里自然就长出了透视线,因为只有懂了透视,你才能在不打手板的情况下画出下一笔。LLM就是那个被打了几万亿次手板的画家。

还有个挺有争议的观点,关于幻觉

很多人诟病模型会胡说八道。其实在技术人员眼里,幻觉和创造力是同源的。它们都是预测下一个词的副产品。

当模型面对一个它确定的事实,比如水的化学式是,它预测H2O的概率接近1。这叫知识提取。
当模型面对一个开放性问题,比如给一家火锅店起个名,它预测的概率分布是平坦的,辣翻天赛博火锅量子涮肉概率都差不多。这时候采样算法选了一个,这叫创造力。
当模型面对一个它没见过的问题,强行去预测,结果选了一个错误的路径,这叫幻觉。

现在的技术趋势,比如我们正在搞的Retrieval-Augmented Generation (RAG) 3.0,或者是基于长上下文(Long Context)的显存优化,其实都是在限制模型在预测下一个词时的搜索空间,给它挂外挂,给它看参考书,不让它瞎猜。

但归根结底,核心驱动力依然是那个简单的、暴力的、美妙的Next Token Prediction。

有时候夜深人静,看着服务器机房的灯在那闪,看着Loss log一行行刷,我真的会有一种敬畏感。我们人类自诩万物之灵,觉得自己有灵魂,有自由意志。但有没有可能,我们的自由意志,也不过是生物神经网络里的Next Token Prediction?

我们的大脑无时无刻不在预测下一秒会发生什么。走路时预测脚下的触感,聊天时预测对方的反应,做决策时预测未来的回报。当预测偏差时(Surprise),多巴胺分泌,大脑修正模型。这跟Transformer的反向传播有什么本质区别吗?

也许,智能的本质就是对未来的压缩和预测。

到了2026年,我们已经不再像2023年那样,对LLM盲目崇拜或者盲目恐惧了。我们把它当成工具,当成一种新型的计算原语。

你现在的手机操作系统里,底层可能就跑着一个3B的小模型,专门负责预测你下一步要点哪个App,从而提前预加载。这不也是预测下一个Token的高级应用吗?

所以,回到你的问题。为什么仅预测下一个词就能涌现高级能力?

因为我们的宇宙本身就是因果的。过去决定未来。如果你能完美地利用所有的过去,精准地预测未来,你就必须掌握控制这个宇宙运转的所有法则。

大模型还没有掌握所有法则,但它通过预测下一个词这个笨办法,已经摸到了人类理性思维的门槛。它不需要懂,它只需要懂了一样去预测。而当它预测得足够完美时,之间的界限,就已经模糊了。

这就是为什么我们现在在这个行业里,越来越少谈论算法,越来越多谈论数据算力。因为算法的上限已经被物理规律锁死了,Next Token Prediction就是通往AGI的最短路径,至少目前看是这样。

最后,我想给在这个时间节点还对AI底层原理感兴趣的朋友一个建议。别被那些花哨的名词吓住了。去读读原始的Attention is All You Need,去看看Andrej Karpathy早年的讲解,哪怕是2026年的现在,那些基础直觉依然是最硬核的。

技术在变,架构在变,甚至连Transformer可能都会被替代,但通过压缩数据来预测未来,从而提取智能这个范式,只要香农的信息论不倒,估计还得统治我们很长一段时间。

这行混久了,越来越觉得,大道至简。预测下一个词,就是那个道。

希望这番碎碎念对你有帮助。有空再聊。

送礼物用户
1 人已送礼物
数据慢慢跑
自由评论 (0)
分享
Copyright © 2022 GreatFire.org