Kollab 实用手册 | AI 魔法工具箱

先说残差：一条抄近路的高速公路

2015 年，何凯明团队提出了 ResNet（残差网络），解决了一个深层神经网络的老大难问题：梯度消失。

网络越深，从输出层往回传递的"学习信号"就越弱，到了最前面几层，信号几乎为零——网络学不到东西了。

他们的解决方案出奇地简单：给信息开一条高速公路，让它绕过中间层，直接"跳"到后面去。

输出 = f(x) + x

f(x) 是经过变换后的结果，x 是原始输入。两者相加，原始信息完整保留。这条"跳线"叫 残差连接（Residual Connection），也叫 跳跃连接（Skip Connection）。

注意力机制让模型在处理一个词的时候，能"看向"句子里其他的词，判断谁跟它关系更密切。

比如"它咬了那只猫"里的"它"，模型会自动关注到"狗"，搞清楚"它"指的是什么。

但注意力计算本质上是一次复杂的信息重组——原来那个词的信息，会被其他词的信息"混进来"。混多了，原来的信息就模糊了。

Transformer 里的标准做法是这样的：

输出 = LayerNorm(x + Attention(x))

步骤拆开看：

这个 x + 就是核心——模型在向外"看"的同时，始终保留着自己原本的身份信息。

想象你是一个侦探，正在破案。

没有残差：你把所有线人的证词都吸收，最后你完全变成了证词的集合，忘了自己原本掌握的现场证据。

有残差：你听完所有证词，把它们整合进自己的判断，但你的现场证据始终握在手里。你既吸收了新信息，又没丢掉原有的依据。

注意力残差，就是那份始终握在手里的现场证据。

注意力残差，是 Transformer 既能"开眼看世界"、又能"不忘自己是谁"的核心机制。

今天所有主流大语言模型，从 GPT 系列到 Llama 再到 Claude，骨子里都在用这个设计。看起来朴素，但它就是让 AI 变得"深"而不"傻"的关键所在。

本文由 Kollab AI + Claude 创作，使用半人马模式完成。