AI大模型教程
一起来学习

Transformer 相关讨论

  • 传统模型存在的问题
    • NLP 输入处理难题:CV 输入数据本身是数值可直接计算,而 NLP 输入是字符串,以前需自己训练词向量模型,现在可利用开源的 embedding 层做映射,将词转成向量。
    • 递归神经网络的局限性:传统递归神经网络是串行结构,效率低,难以处理长文本,会丢失信息;虽有双向结构能考虑上下文,但对当前词影响大的多是相邻词,且一个词的特征未考虑语境影响。
  • Transformer 的诞生与发展
    • 论文及初期情况:Transformer 于 17 年提出,论文 “Attention Is All You Need” 起初不受重视,17 年不火,因无预训练模型和权重,从零开始训练难。
    • 发展转机:18 年谷歌和 OpenAI 分别推出 Bert 和 GPT,提供预训练模型,让 NLP 从 “啥也不是” 到能做点东西,看到希望。当时 CV 发展很好,图像分类比赛的计算机视觉识别能力已远超人眼,而 NLP 连两岁孩子的能力都达不到。
  • 注意力机制(Attention)
    • 核心概念:注意力机制可理解为权重值,用于表示上下文各词的重要程度,通过考虑上下文信息更新词的特征。
    • 实现过程:每个词有查询向量(query)、键向量(key)和值向量(value),通过 query 和 key 的内积计算权重,再用权重对 value 做加权得到更新后的特征。query 和 key 向量是训练得到的,通过输入特征与权重参数矩阵相乘获得。
    • 并行结构优势:Transformer 在本质设计上是并行结构,可同时计算各词与上下文的关系,适合处理大量输入。
  • 多头注意力机制(Multi – Head Attention)
    • 目的:为了提取更多特征,避免过拟合,让模型学到更丰富的信息。
    • 实现方式:每个词有多组 QKV,通过多组权重参数矩阵得到多组特征,最后将这些特征拼接在一起。以做 8 头为例,将输入向量平均分成 8 份,每份单独计算,最后再组合。
  • 位置编码(Positional Encoding)
    • 问题提出:Transformer 对位置信息不敏感,一句话正说、反说、乱序说结果相同,不符合实际表达逻辑。
    • 解决办法:为每个位置初始化固定编码,通过与词特征做加法,使模型体现位置差异,学到位置对结果的影响。
  • 编码器(Encoder)和解码器(Decoder)
    • 编码器:由自注意力机制(self – attention)和全连接层组成,可重复多次,不断提取和优化特征。
    • 解码器:包含交叉注意力(cross – attention)和自注意力机制(self – attention)。交叉注意力从编码器中取特征,自注意力考虑前文生成的特征。同时有 mask 机制,只考虑左侧信息。通常先做 cross – attention 再做 self – attention。
  • 后续学习建议
    • 学习重点:后续学习以源码为重点,看源码能更清楚细节。

文章来源于互联网:Transformer 相关讨论

相关推荐: 五大AI平台特长揭秘:文心一言通义千问、天工AI、讯飞星火与Kimi的差异化优势

文心一言、通义千问、天工AI、讯飞星火和Kimi是目前国内较为知名的AI平台,它们各自具有以下特点和优势: 本文将对这五大 AI 平台进行深度对比,分析各自特点及适用场景,帮助您找到最合适的 AI 助手。 一、 五大 AI 平台实力对比 平台名称 开发公司 主…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » Transformer 相关讨论
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们