2019年提出 无监督的预训练模型做有监督的任务 相比GPT 模型结构去除Fine-Tuning层 Layer Normalization移到到每个sub-block输入的地方与最后一个Self-Attention后 采用了修正初始化方法 Vocabulary规模扩展到50257,输入上下文从512扩展到1024,使用更大batch_size 特点 强泛化能力 40G训练语料