• 多抽头Attention
  • 优点
    • 找核心特征
  • 同时转换Q、K、V成,得到
    • 代表一种角度
    • 多个H串联,再用降维