Embedding词嵌入
把一个词变成一长串数字(一个坐标),让"意思"变成能计算的"位置"。这是 AI 一切理解的起点。
像给每个词,在一张几千维的大地图上标好经纬度。
怎么用:这里把 AI 圈最常砸你脸上的术语,每个都翻成一句白话,再配一个生活里的类比。不必从头读——按下面的标签筛一类,或直接搜你卡住的那个词。
把一个词变成一长串数字(一个坐标),让"意思"变成能计算的"位置"。这是 AI 一切理解的起点。
像给每个词,在一张几千维的大地图上标好经纬度。
模型眼里的最小单位,可能是一个词、半个词,或一个标点。它不是按"字"读,是按"块"读。
像把句子剪成乐高块,模型只认块,不认你以为的字词。
就是 embedding 那串坐标数字本身。词与词的远近、方向,全靠它来算。
像一个词的"DNA 序列"——一长串数,定义了它是谁、跟谁像。
坐标有几千个轴,每个轴管一丁点"意思"。维度越多,能区分的细微差别越多。
像形容一个人要很多角度——身高、性格、口音……词也一样,一个数说不清。
模型训练中学到的那些数字,决定它怎么算。常说的"千亿参数",指的就是它们的数量。
像乐器上无数个旋钮,训练就是把每一个都慢慢拧到刚好的位置。
读每个词时,回头给前面每个词打一个"该多看你一眼"的分。这是 transformer 的心脏。
像你读到"他后悔了",会下意识回翻"他到底是谁"。
当今主流大模型的骨架,靠一层层注意力堆叠而成。GPT 里的 T 就是它。
像一套专门用来"读懂上下文"的流水线,一层比一层看得深。
模型不只打一套注意力分,而是同时打很多套,每套盯一种关系(指代、语法、语义)。
像一群专家同时读同一句话,各看各的门道,最后汇总。
把一堆零散分数,压成一组加起来正好等于 1 的概率,好让模型"按比例"挑词。
像把全班的举手数,换算成"每个选项占百分之几"。
模型一次能"看见"的文字长度上限。超出这个窗口,前面的内容它就忘了。
像它的短期记忆只有一张桌子那么大,新纸铺进来,旧纸就被挤下桌。
调下一词挑选的随机度。低=保守复读高概率词;高=后排词也敢用,天马行空但易跑偏。
像创作时的"放飞程度"旋钮:拧低了规整,拧高了野。
挑下一词前,先把候选砍到"前 k 名"或"累计概率到 p"的小圈子,再在圈内随机。
像点菜只看销量前几名,既图个新鲜,又不至于踩到雷。
softmax 之前、每个候选词拿到的原始分数。还没换算成百分比的"毛分"。
像还没折算成得票率的"原始票数"。
按概率分布挑出下一个词的那个动作。温度、top-k 都是在调这一步怎么挑。
像从一个加了权的抽奖箱里摸球——热门球多,但冷门也有机会。
它一本正经地编造不存在的事实。因为它优化的是"通顺",不是"正确"——说得越顺,越要核对。
像一个口才极好但记性不靠谱的人,流利地说着可能根本没发生的事。
它操作的全是位置和概率,不是意义。它"像"理解,是因为"最顺的词"本身就藏着世界的规律。
像鹦鹉学舌练到极致,顺到让你以为它真在跟你对话。
没有腹稿,没有提纲,它逐词预测、边走边算。流畅,不等于有计划。
像即兴接龙接到天衣无缝,但它从没想过这段会怎么结尾。
参数更多通常更强,但也更贵更慢,而且不保证更"对"——大模型照样会自信地说错。
像更大的引擎不等于更好的司机:马力足,方向错了照样翻车。