浅层 · 一句话:把手机输入法的"下一个词联想"放大一万倍,就是它。你打"我今天",它跳出"很/想/有点";AI 做的是同一件事,只是它见过几乎整个互联网,所以猜得准得多、远得多。
这个朴素的动作有个正式名字:自回归生成(autoregressive)——"回归"指它把自己刚吐出的词,重新当成输入喂回去,循环往复。下面这一整页,都在拆这个循环里到底发生了什么。
中层 · 刚才那一下发生了什么:模型对词表里每一个词(往往五万到十几万个)都算了一个"接在这儿有多合适"的分,再压成一组加起来等于 1 的概率——上面的条,就是分数最高的前几名。然后它按这个概率挑一个接上去。
关键在"挑"这个字。它通常挑最高的,但不总是——留一点随机,正是右边那个温度滑块在管的事。所以同一个问题,它每次答得不完全一样:不是它"想法变了",是每一步的掷骰子结果不同。
它真正反直觉的地方在这:每生成一个词,就把那个新词拼回输入,当成新的"前文",再算下一个。同一个动作,套在自己的输出上,转一圈又一圈。
辅助 · 不必记的细节:这也是为什么生成长文章时,前面已经写好的部分不会被推翻——它只能往后添,不能回头改(这叫"只读前文")。一旦某一步挑了个略偏的词,后面只能将错就错地顺下去,小偏差会滚雪球。这正是它有时越说越离谱的机制原因。
给它同一个开头 ——「用一句话形容大海」—— 只把温度从低拨到高,它就像换了个人。低温死磕高概率词,稳妥但平庸;高温让后排的词也敢冒头,惊艳但容易翻车。
把上面的概率条往左拨(低温),你会看到第一名几乎占满整条;往右拨(高温),分布被摊平,后排的词也分到了可观的概率——温度没有改变模型懂什么,只改变了它"敢不敢挑冷门"。
深层 · 反直觉:它根本不知道自己整句要说什么。没有提纲,没有"我这段想论证 X"。每一个词,都是当下、临时、只看着前文算出来的最优下一步。可一连串"局部最优"拼起来,竟然涌现出像有逻辑、有立场、有起承转合的整段话。
流畅,不等于有计划。这件事一旦想透,你看 AI 的眼光会变:它写得越顺,你越不该把"顺"误读成"它真的想清楚了"。顺是它唯一被训练去优化的东西;想清楚没有,从来都没有。
那"思维链""让它一步步想"为什么有用?因为那是在逼它把"想"也用文字逐词写出来——先写推理过程,再写结论。它不是真的多想了,是把思考摊成了更多的词,用篇幅换稳定。本质,还是逐词预测,只是绕了个有用的弯。
看一句话怎么从无到有。每一行,它都只是挑了"接在前面最顺的下一个词",并不知道终点。但你往下读,会看到一条情绪和逻辑的线,自己浮现出来——这就是涌现。
为什么"局部最优"能拼出"全局连贯"?因为"最顺的下一个词"本身,就压缩了海量关于世界的规律——什么情绪配什么词、什么处境接什么结果、一句话该怎么收尾。它不需要规划,因为规划早已被揉进了"哪个词最顺"这件事里。涌现不是魔法,是规律在逐词预测里的复利。
它优化的是"读起来顺",不是"事实对"。绝大多数时候,顺的也正好是对的;但当"顺"和"对"分了岔,它会毫不犹豫地选顺——而且语气一样自信。
所以用它的正确姿势,不是"信"或"不信",而是知道它在优化什么:涉及事实、数字、引用,多问一句、自己核对;涉及表达、灵感、草稿,放手让它顺。看懂了机制,你就既能用它的强,又能防它的坑。
先抓住"逐词、按概率挑"就够用了。下面四种,是给想把输出调得更准的人的旋钮。
每步取概率最高的词,最稳、最可复现,但易陷入重复套话。温度趋近 0 就是它。
低温让第一名一家独大,高温把机会摊给后排。上面那个滑块拨的就是它。
先把候选砍到概率最高的 k 个,再在里面随机。挡掉长尾里那些离谱的词。
不固定个数,而是取"累计概率到 p(如 90%)"的那一小撮——分布陡就少选、平就多选,更自适应。
位置(语义空间)、关系(注意力)、开口(逐词预测)——三块拼图齐了,你已经看懂它"怎么走路"。但看懂不等于会用。最后一站不再讲新概念,而是把这三件事交到你手上:自己当一次模型,亲手走一遍。