大语言模型微调及其应用的探索 跟踪前沿的技术
2017年以前,处理序列数据(自然语言文本、时间序列型号、音频等)主流模型是RNN
分为两大类LSTM(Long Short-Term Memory)和GRU(gated Recurrent Unit)
一篇很长的文档,要理解文末某个代词“它”指代的是文章开头的某个概念, 它需要一步一步专递,序列越长信息越容易“掉失”。像玩“传话游戏”, 信息到最后已经面目全非
RNN的顺序处理机制决定了它必须完成上一步才能执行下一步,无法并行计算
Transformer正是解决上面两大痛点 注意力机制允许输出序列中的某个元素直接关注输入序列中如何其它位置的元素解决了长距离依赖和解决了串行计算
Query: 告诉注意力机制,“我”对那项最感兴趣
Key: 指明了有那些可供查询的项(位置编码后)
Value: 指明了这些项实际包含的信息或者内容
突出重要信息,抑制不重要信息,从而让模型做出更好的决策的系统
下面是一张对比表,总结 CNN、FC(全连接)和注意力机制三者在信息处理方式、权重特点、关注点、优点与典型应用方面的区别:
| 特征 | CNN | FC | 注意力机制 |
|---|---|---|---|
| 信息处理方式 | 局部区域,共享卷积核 | 全局连接,固定权重 | 动态计算权重,关注不同输入部分 |
| 权重特点 | 权重共享,与输入位置无关 | 权重固定,学习全局模式 | 权重依赖 Q 和 K 的交互,随输入变化 |
| 关注点 | 局部空间,学习层级特征 | 整体输入,不关心空间 | 输入元素之间的内容相关性 |
| 优点 | 处理图像效果好 | 更有利于特征整合与分类 | 灵活处理变长序列,可并行处理 |
| 典型应用 | 计算机视觉 | 分类 | 自然语言处理、机器翻译 |