-
传统模型存在的问题:
- NLP 输入处理难题:CV 输入数据本身是数值可直接计算,而 NLP 输入是字符串,以前需自己训练词向量模型,现在可利用开源的 embedding 层做映射,将词转成向量。
- 递归神经网络的局限性:传统递归神经网络是串行结构,效率低,难以处理长文本,会丢失信息;虽有双向结构能考虑上下文,但对当前词影响大的多是相邻词,且一个词的特征未考虑语境影响。
-
Transformer 的诞生与发展:
- 论文及初期情况:Transformer 于 17 年提出,论文 “Attention Is All You Need” 起初不受重视,17 年不火,因无预训练模型和权重,从零开始训练难。
- 发展转机:18 年谷歌和 OpenAI 分别推出 Bert 和 GPT,提供预训练模型,让 NLP 从 “啥也不是” 到能做点东西,看到希望。当时 CV 发展很好,图像分类比赛的计算机视觉识别能力已远超人眼,而 NLP 连两岁孩子的能力都达不到。
-
注意力机制(Attention):
- 核心概念:注意力机制可理解为权重值,用于表示上下文各词的重要程度,通过考虑上下文信息更新词的特征。
- 实现过程:每个词有查询向量(query)、键向量(key)和值向量(value),通过 query 和 key 的内积计算权重,再用权重对 value 做加权得到更新后的特征。query 和 key 向量是训练得到的,通过输入特征与权重参数矩阵相乘获得。
- 并行结构优势:Transformer 在本质设计上是并行结构,可同时计算各词与上下文的关系,适合处理大量输入。
-
多头注意力机制(Multi – Head Attention):
- 目的:为了提取更多特征,避免过拟合,让模型学到更丰富的信息。
- 实现方式:每个词有多组 QKV,通过多组权重参数矩阵得到多组特征,最后将这些特征拼接在一起。以做 8 头为例,将输入向量平均分成 8 份,每份单独计算,最后再组合。
-
位置编码(Positional Encoding):
- 问题提出:Transformer 对位置信息不敏感,一句话正说、反说、乱序说结果相同,不符合实际表达逻辑。
- 解决办法:为每个位置初始化固定编码,通过与词特征做加法,使模型体现位置差异,学到位置对结果的影响。
-
编码器(Encoder)和解码器(Decoder):
- 编码器:由自注意力机制(self – attention)和全连接层组成,可重复多次,不断提取和优化特征。
- 解码器:包含交叉注意力(cross – attention)和自注意力机制(self – attention)。交叉注意力从编码器中取特征,自注意力考虑前文生成的特征。同时有 mask 机制,只考虑左侧信息。通常先做 cross – attention 再做 self – attention。
-
后续学习建议:
- 学习重点:后续学习以源码为重点,看源码能更清楚细节。
文章来源于互联网:Transformer 相关讨论
相关推荐: 五大AI平台特长揭秘:文心一言、通义千问、天工AI、讯飞星火与Kimi的差异化优势
文心一言、通义千问、天工AI、讯飞星火和Kimi是目前国内较为知名的AI平台,它们各自具有以下特点和优势: 本文将对这五大 AI 平台进行深度对比,分析各自特点及适用场景,帮助您找到最合适的 AI 助手。 一、 五大 AI 平台实力对比 平台名称 开发公司 主…
5bei.cn大模型教程网










