模型结构位置编码激活函数layer norm方法
原生TransformerEncoder-DecoderSinusoida编码ReLUPost layer norm
BERTEncoder绝对位置编码GeLUPost layer norm
LLaMACasual-decoderRoPESwiGLUPre RMS Norm
ChatGLM-6BPrefix decoderRoPEGeGLUPost Deep Norm
BloomCasual decoderALiBiGeLUPre Layer Norm
  • 决定效果
    • 模型参数量、数据集大小、计算量
    • 幂率
      • 如果单独增大一个,量越来越大,效果越来越小
      • 算力不足时,小模型收敛更快
  • 分词
    • 子词
      • 通过训练数据得到
      • BPE(Byte Pair Encoding)
        • OpenAI使用
      • Word-Piece
        • 单独高频字不合子词
      • Unigram
        • 开始设定子词,慢慢减少
  • 显存估计
    • 模型参数、Batchsize, Max_length
  • 微调
    • 传统
      • 冻结层训练
    • 外挂,节约内存(大模型特有)
      • Prefix-Tuning
        • 软提示(加虚拟token),输出结果反向调整该提示id的embedding
        • embedding编码用MLP
        • P-Tuning
          • 编码用LSTM + MLP
        • P-Tuning V2
          • 模型每层前都外挂虚拟token
      • Adapter-Tuning
      • LoRA