• 2017, Google发表《Attention Is All You Need》,提出Transformer
  • Attention机制
  • 分类
    • encoder transformer
    • decoder transformer
  • 步骤
    • 一个Transformer
      • 输入序列
      • Self-Attention
        • 输出Z
      • Add & Norm
        • shortcut,LayerNorm(X+Z)
      • Feed Forward
        • 前馈神经网络
          • 2层DNN
      • Add & Norm
      • 输出序列
    • 累加Transformer
      • 为什么不直接多层self-attention
          • 多层无意义,多层MW等价一层
  • 模型