首页 / 概念 / 下一词预测

03 / 下一词预测 · PREDICTION

说了这么多,它其实只在做一件事。

语义空间给了它每个词的位置,注意力给了它词与词的关系。万事俱备,它要开口了——而开口这件事,简单到有点让人失望:猜下一个词。

它从不想好整句再说。
它只猜下一个词,
接上,
再猜下一个。
一句通顺的话,
就这样长出来。

浅层 · 一句话:把手机输入法的"下一个词联想"放大一万倍,就是它。你打"我今天",它跳出"很/想/有点";AI 做的是同一件事,只是它见过几乎整个互联网,所以猜得准得多、远得多。

这个朴素的动作有个正式名字:自回归生成(autoregressive)——"回归"指它把自己刚吐出的词,重新当成输入喂回去,循环往复。下面这一整页,都在拆这个循环里到底发生了什么。

亲手按一次

每按一下,看它眼里下一个词的概率分布。

今天的天气

温度 temperature 0.7

中层 · 刚才那一下发生了什么:模型对词表里每一个词(往往五万到十几万个)都算了一个"接在这儿有多合适"的分,再压成一组加起来等于 1 的概率——上面的条,就是分数最高的前几名。然后它按这个概率挑一个接上去。

关键在"挑"这个字。它通常挑最高的,但不总是——留一点随机,正是右边那个温度滑块在管的事。所以同一个问题,它每次答得不完全一样:不是它"想法变了",是每一步的掷骰子结果不同。

这一下,要循环成百上千次

一个词,接一个词,滚成一整句。

它真正反直觉的地方在这:每生成一个词,就把那个新词拼回输入,当成新的"前文",再算下一个。同一个动作,套在自己的输出上,转一圈又一圈。

自回归循环 · 直到挑中"结束"标记才停下

辅助 · 不必记的细节:这也是为什么生成长文章时,前面已经写好的部分不会被推翻——它只能往后添,不能回头改(这叫"只读前文")。一旦某一步挑了个略偏的词,后面只能将错就错地顺下去,小偏差会滚雪球。这正是它有时越说越离谱的机制原因。

同一句指令,三种温度

"温度",其实是在调它的胆子。

给它同一个开头 ——「用一句话形容大海」—— 只把温度从低拨到高,它就像换了个人。低温死磕高概率词,稳妥但平庸;高温让后排的词也敢冒头,惊艳但容易翻车。

温度 0.25 · 低

复读机

分布尖如针,第一名一家独大

"大海是蓝色的,非常广阔。"

安全、可复现,但乏味、爱说套话——温度趋近 0 就是贪心。

温度 0.7 · 中

正常发挥

有主有次,留一点意外

"大海像一块呼吸着的蓝绸缎,把整片天空都揉了进去。"

多数对话默认值:既通顺,又有点灵气——可控的自然。

温度 1.5 · 高

醉酒诗人

分布被摊平,冷门词也敢挑

"大海是上帝打翻的靛蓝墨水,鲸鱼在里面背诵失传的诗。"

惊艳、跳脱,但也最容易跑偏、失控、说胡话——创意与风险同源。

↑ 每张卡顶上,是该温度下"同一组候选词"的真实概率分布:低温尖峰、高温平摊——这就是"温度软化分布"。

把上面的概率条往左拨(低温),你会看到第一名几乎占满整条;往右拨(高温),分布被摊平,后排的词也分到了可观的概率——温度没有改变模型懂什么,只改变了它"敢不敢挑冷门"。

想清楚一件事

它说得头头是道,却没有腹稿。

深层 · 反直觉:它根本不知道自己整句要说什么。没有提纲,没有"我这段想论证 X"。每一个词,都是当下、临时、只看着前文算出来的最优下一步。可一连串"局部最优"拼起来,竟然涌现出像有逻辑、有立场、有起承转合的整段话。

流畅,不等于有计划。这件事一旦想透,你看 AI 的眼光会变:它写得越顺,你越不该把"顺"误读成"它真的想清楚了"。顺是它唯一被训练去优化的东西;想清楚没有,从来都没有。

那"思维链""让它一步步想"为什么有用?因为那是在逼它把"想"也用文字逐词写出来——先写推理过程,再写结论。它不是真的多想了,是把思考摊成了更多的词,用篇幅换稳定。本质,还是逐词预测,只是绕了个有用的弯。

"涌现"长什么样

每步只挑"最顺的词",却拼出了主线与情绪。

看一句话怎么从无到有。每一行,它都只是挑了"接在前面最顺的下一个词",并不知道终点。但你往下读,会看到一条情绪和逻辑的线,自己浮现出来——这就是涌现。

第 1 词我还什么都看不出来。

+3 词我今天加班到有了时间和处境,基调开始下沉。

+5 词我今天加班到很晚,有点撑不情绪出来了,但还悬着——它在等下一个词。

收束我今天加班到很晚,有点撑不住了,只想回家躺平,谁也别理我。一句有处境、有情绪、有态度的完整表达——可它从头到尾,只在挑下一个词。

为什么"局部最优"能拼出"全局连贯"?因为"最顺的下一个词"本身,就压缩了海量关于世界的规律——什么情绪配什么词、什么处境接什么结果、一句话该怎么收尾。它不需要规划,因为规划早已被揉进了"哪个词最顺"这件事里。涌现不是魔法,是规律在逐词预测里的复利。

同一个机制的另一面

让它能写诗的,也让它会一本正经地胡说。

它优化的是"读起来顺",不是"事实对"。绝大多数时候,顺的也正好是对的;但当"顺"和"对"分了岔,它会毫不犹豫地选顺——而且语气一样自信。

▍流畅 · 但错

"《红楼梦》的作者是鲁迅,他于 1925 年完成了这部讽刺小说……"

语法完美、年代具体、语气笃定——读起来天衣无缝。可它把"名著 + 著名作家 + 年份"这组高概率搭配顺口拼了出来,事实却是错的。

▍为什么会这样

它没有"我知不知道"这个开关,只有"顺不顺"这一个旋钮。

它不会在不确定时停下来说"我不清楚"——因为"我不清楚"在那个语境里,概率往往低于一个编得很顺的答案。幻觉不是 bug,是逐词求顺的副产品。

所以用它的正确姿势,不是"信"或"不信",而是知道它在优化什么:涉及事实、数字、引用,多问一句、自己核对;涉及表达、灵感、草稿,放手让它顺。看懂了机制,你就既能用它的强,又能防它的坑。

想深一点(不急也可跳过)

"挑一个词"这步,工程上有几种挑法

先抓住"逐词、按概率挑"就够用了。下面四种,是给想把输出调得更准的人的旋钮。

贪心 GREEDY

永远挑第一名

每步取概率最高的词,最稳、最可复现,但易陷入重复套话。温度趋近 0 就是它。

温度 TEMPERATURE

调分布的陡峭度

低温让第一名一家独大,高温把机会摊给后排。上面那个滑块拨的就是它。

TOP-K

只在前 k 名里抽

先把候选砍到概率最高的 k 个,再在里面随机。挡掉长尾里那些离谱的词。

TOP-P / 核采样

按累计概率截断

不固定个数,而是取"累计概率到 p(如 90%)"的那一小撮——分布陡就少选、平就多选,更自适应。

几个最常见的误会

关于"逐词预测",你可能还在想……

它是在一个巨大的数据库里"查"下一个词吗?

不是。没有数据库,没有查表。它把前文输进去,用训练时学到的几十亿个参数现场算出每个词的概率。正因为是"算 + 采样"而不是"查",同一个问题它每次答得不一样;也正因如此,它能说出训练数据里从没出现过的句子。

既然只看前面、逐词蹦,它怎么写得出有结构的长文章?

因为"最顺的下一个词"里,压缩了海量关于逻辑和结构的规律。开头该有引子、论点该配论据、结尾该收束——这些"文章的形状"早被它从无数范文里学了去。每步局部最优,累积成全局连贯,这就是上面说的涌现。

它能"先想好,再开口"吗?

标准的逐词生成不能。但"思维链 / 让它一步步来"这类技巧,本质是让它把"想"也用文字逐词写出来:先写推理过程,再写结论。它没有多出一个"思考器官",只是用更多的词、更长的篇幅,换来更稳的逻辑。

温度调到 0,它就绝对正确、不会胡说了吗?

不会。温度 0 只是让它每次都挑最高概率的词(可复现),但"概率最高"≠"事实正确"。如果一个错误答案在它眼里就是最顺的,温度 0 只会让它每次都稳定地犯同一个错。温度治的是随机性,不是真实性。

位置(语义空间)、关系(注意力)、开口(逐词预测)——三块拼图齐了,你已经看懂它"怎么走路"。但看懂不等于会用。最后一站不再讲新概念,而是把这三件事交到你手上:自己当一次模型,亲手走一遍。