Transformer 相关讨论

传统模型存在的问题：
- NLP 输入处理难题：CV 输入数据本身是数值可直接计算，而 NLP 输入是字符串，以前需自己训练词向量模型，现在可利用开源的 embedding 层做映射，将词转成向量。
- 递归神经网络的局限性：传统递归神经网络是串行结构，效率低，难以处理长文本，会丢失信息；虽有双向结构能考虑上下文，但对当前词影响大的多是相邻词，且一个词的特征未考虑语境影响。
Transformer 的诞生与发展：
- 论文及初期情况：Transformer 于 17 年提出，论文 “Attention Is All You Need” 起初不受重视，17 年不火，因无预训练模型和权重，从零开始训练难。
- 发展转机：18 年谷歌和 OpenAI 分别推出 Bert 和 GPT，提供预训练模型，让 NLP 从 “啥也不是” 到能做点东西，看到希望。当时 CV 发展很好，图像分类比赛的计算机视觉识别能力已远超人眼，而 NLP 连两岁孩子的能力都达不到。
注意力机制（Attention）：
- 核心概念：注意力机制可理解为权重值，用于表示上下文各词的重要程度，通过考虑上下文信息更新词的特征。
- 实现过程：每个词有查询向量（query）、键向量（key）和值向量（value），通过 query 和 key 的内积计算权重，再用权重对 value 做加权得到更新后的特征。query 和 key 向量是训练得到的，通过输入特征与权重参数矩阵相乘获得。
- 并行结构优势：Transformer 在本质设计上是并行结构，可同时计算各词与上下文的关系，适合处理大量输入。
多头注意力机制（Multi – Head Attention）：
- 目的：为了提取更多特征，避免过拟合，让模型学到更丰富的信息。
- 实现方式：每个词有多组 QKV，通过多组权重参数矩阵得到多组特征，最后将这些特征拼接在一起。以做 8 头为例，将输入向量平均分成 8 份，每份单独计算，最后再组合。
位置编码（Positional Encoding）：
- 问题提出：Transformer 对位置信息不敏感，一句话正说、反说、乱序说结果相同，不符合实际表达逻辑。
- 解决办法：为每个位置初始化固定编码，通过与词特征做加法，使模型体现位置差异，学到位置对结果的影响。
编码器（Encoder）和解码器（Decoder）：
- 编码器：由自注意力机制（self – attention）和全连接层组成，可重复多次，不断提取和优化特征。
- 解码器：包含交叉注意力（cross – attention）和自注意力机制（self – attention）。交叉注意力从编码器中取特征，自注意力考虑前文生成的特征。同时有 mask 机制，只考虑左侧信息。通常先做 cross – attention 再做 self – attention。
后续学习建议：
- 学习重点：后续学习以源码为重点，看源码能更清楚细节。

相关推荐: 五大AI平台特长揭秘：文心一言、通义千问、天工AI、讯飞星火与Kimi的差异化优势

文心一言、通义千问、天工AI、讯飞星火和Kimi是目前国内较为知名的AI平台，它们各自具有以下特点和优势：本文将对这五大 AI 平台进行深度对比，分析各自特点及适用场景，帮助您找到最合适的 AI 助手。一、五大 AI 平台实力对比平台名称开发公司主…

Transformer 相关讨论

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来