术语库 · 不被黑话劝退 / 意义的空间

基础

Embedding词嵌入

把一个词变成一长串数字(一个坐标),让"意思"变成能计算的"位置"。这是 AI 一切理解的起点。

像给每个词,在一张几千维的大地图上标好经纬度。

基础

Token词元

模型眼里的最小单位,可能是一个词、半个词,或一个标点。它不是按"字"读,是按"块"读。

像把句子剪成乐高块,模型只认块,不认你以为的字词。

基础

Vector向量

就是 embedding 那串坐标数字本身。词与词的远近、方向,全靠它来算。

像一个词的"DNA 序列"——一长串数,定义了它是谁、跟谁像。

基础

Dimension维度

坐标有几千个轴,每个轴管一丁点"意思"。维度越多,能区分的细微差别越多。

像形容一个人要很多角度——身高、性格、口音……词也一样,一个数说不清。

基础

Parameter参数

模型训练中学到的那些数字,决定它怎么算。常说的"千亿参数",指的就是它们的数量。

像乐器上无数个旋钮,训练就是把每一个都慢慢拧到刚好的位置。

机制

Attention注意力

读每个词时,回头给前面每个词打一个"该多看你一眼"的分。这是 transformer 的心脏。

像你读到"他后悔了",会下意识回翻"他到底是谁"。

机制

Transformer架构

当今主流大模型的骨架,靠一层层注意力堆叠而成。GPT 里的 T 就是它。

像一套专门用来"读懂上下文"的流水线,一层比一层看得深。

机制

Multi-head多头

模型不只打一套注意力分,而是同时打很多套,每套盯一种关系(指代、语法、语义)。

像一群专家同时读同一句话,各看各的门道,最后汇总。

机制

Softmax归一

把一堆零散分数,压成一组加起来正好等于 1 的概率,好让模型"按比例"挑词。

像把全班的举手数,换算成"每个选项占百分之几"。

机制

Context上下文窗口

模型一次能"看见"的文字长度上限。超出这个窗口,前面的内容它就忘了。

像它的短期记忆只有一张桌子那么大,新纸铺进来,旧纸就被挤下桌。

参数

Temperature温度

调下一词挑选的随机度。低=保守复读高概率词;高=后排词也敢用,天马行空但易跑偏。

像创作时的"放飞程度"旋钮:拧低了规整,拧高了野。

参数

Top-k / Top-p截断采样

挑下一词前,先把候选砍到"前 k 名"或"累计概率到 p"的小圈子,再在圈内随机。

像点菜只看销量前几名,既图个新鲜,又不至于踩到雷。

参数

Logits原始分

softmax 之前、每个候选词拿到的原始分数。还没换算成百分比的"毛分"。

像还没折算成得票率的"原始票数"。

参数

Sampling采样

按概率分布挑出下一个词的那个动作。温度、top-k 都是在调这一步怎么挑。

像从一个加了权的抽奖箱里摸球——热门球多,但冷门也有机会。

常见误解

Hallucination幻觉

它一本正经地编造不存在的事实。因为它优化的是"通顺",不是"正确"——说得越顺,越要核对。

像一个口才极好但记性不靠谱的人,流利地说着可能根本没发生的事。

常见误解

"它懂了吗"

它操作的全是位置和概率,不是意义。它"像"理解,是因为"最顺的词"本身就藏着世界的规律。

像鹦鹉学舌练到极致,顺到让你以为它真在跟你对话。

常见误解

"它在思考"

没有腹稿,没有提纲,它逐词预测、边走边算。流畅,不等于有计划。

像即兴接龙接到天衣无缝,但它从没想过这段会怎么结尾。

常见误解

"越大越聪明"

参数更多通常更强,但也更贵更慢,而且不保证更"对"——大模型照样会自信地说错。

像更大的引擎不等于更好的司机:马力足,方向错了照样翻车。

别被黑话劝退。每个词,一句人话。

Embedding词嵌入

Token词元

Vector向量

Dimension维度

Parameter参数

Attention注意力

Transformer架构

Multi-head多头

Softmax归一

Context上下文窗口

Temperature温度

Top-k / Top-p截断采样

Logits原始分

Sampling采样

Hallucination幻觉

"它懂了吗"

"它在思考"

"越大越聪明"