• Bidirectional Encoder Representation from Transformers,Google,2018年产生, 《The Attention is all you need》
  • RoBERTa
  • ALBERT
  • T5
  • 组成
    • 字为单位输入
      • 字向量,位置向量,句向量
    • 多层Transformer
    • 遮挡字mask,有位置向量 输出中只预测mask
      • 好处
        • 不需标注
      • 取14%字mask
        • 取的是经验值
        • 80%mask
        • 10%随机另外的字,用来纠错
        • 10%正确的字,做负样本
      • 训练要求
        • mask任务难易适中
          • 填空要求的语义理解度
  • 与word2vec区别
    • BERT的词向量有上下文信息
      • word2vec没有位置信息
  • 用于分词
    • 词向量由字决定,字向量上下文决定
  • 变种
    • BERTscores、BERTr、YiSi
      • 基于预训练模型评测,利用BERT的embedding表示代替n-gram计算生成文本和参考文本的相似性