2020年提出 prompt 相对GPT-2 模型增大到1750亿参数(GPT-2的115倍) 45TB数据训练 维基百科只占0.6% 31个分工明确的作者 28.5w CPU, 1w GPU 1200w美元 40个外包公司人工标注 特点 可以根据输入提示学习 可以在不做梯度更新情况下使用零样本、少样本进行学习预测 问题 基于大量数据,不是技术本身 应该基于知识和概念 泛化能力不好,基于已有数据 缺乏理解,推理和思考