2018年提出 循序迭代的预训练模型 基于大量无标注数据进行生成式预训练学习,然后在特定任务上进行微调 只使用Transformer的Decoder部分 问题 微调下游任务不具备迁移能力 Fine-Tuning层是不共享的