Google提出,Meta改造成fasttext 监督模型 但不需要数据标注 问题 词袋模型 词与词概率分布稀疏 词的向量学习出来,使向量稠密 softmax简化 霍夫曼树 多次二分类,学习多个w 优点 高频词运算少 最多运算logN次 NCE 构建 CBOW Skip-gram 子词系统 降低参数 牺牲准确度 词hash后分桶,桶即向量 多词对应一个向量 计算相似度