• Google提出,Meta改造成fasttext
  • 监督模型
    • 但不需要数据标注
  • 问题
    • 词袋模型
  • 词与词概率分布稀疏
    • 词的向量学习出来,使向量稠密
    • softmax简化
      • 霍夫曼树
        • 多次二分类,学习多个w
        • 优点
          • 高频词运算少
          • 最多运算
      • NCE
  • 构建
  • 子词系统
    • 降低参数
      • 牺牲准确度
    • 词hash后分桶,桶即向量
      • 多词对应一个向量
  • 计算相似度