• 2018年提出
  • 循序迭代的预训练模型
  • 基于大量无标注数据进行生成式预训练学习,然后在特定任务上进行微调
    • 只使用Transformer的Decoder部分
  • 问题
    • 微调下游任务不具备迁移能力
    • Fine-Tuning层是不共享的