• 2020年提出
  • prompt
  • 相对GPT-2
    • 模型增大到1750亿参数(GPT-2的115倍)
    • 45TB数据训练
      • 维基百科只占0.6%
    • 31个分工明确的作者
    • 28.5w CPU, 1w GPU
    • 1200w美元
    • 40个外包公司人工标注
  • 特点
    • 可以根据输入提示学习
    • 可以在不做梯度更新情况下使用零样本、少样本进行学习预测
  • 问题
    • 基于大量数据,不是技术本身
      • 应该基于知识和概念
    • 泛化能力不好,基于已有数据
    • 缺乏理解,推理和思考