• Natural Language Processing,自然语言处理
  • 贝叶斯公式
  • word2vec
  • fasttext
  • BERT
  • 分词
  • 阶段
    • 特征优化
      • 内容
        • 词权重,主题LDA
      • 要求:快,可控,可解释
    • word2vec
    • LLM+finetune
      • 蒸馏学习
    • prompt
  • 层次
    • 字符串匹配
      • 编辑距离
    • 语义匹配
    • 语法匹配
      • 语法合理,语句通顺
    • 知识匹配
      • CV没有
  • 任务分类
    • 中间类任务
      • 分词,词性标注,句法分析,近义词
    • 语义理解任务
      • 文本分类,文本相似度
    • 生成类任务
      • 输入文本再输出文本
      • 文本纠错
  • NLP问题
    • 词汇量大
    • 语义丰富
    • 语言差异性
  • 语言模型
    • 统计一句话合法性概率
  • 计算
    • 顺序敏感
    • 统计
      • 表示x1,x2连续出现的次数概率
    • 不好统计
      • 原因
        • 计算太多
        • 概率太小
    • 马尔科夫链来简化
      • 局限性
        • 语料少时有偏差
        • 统计个概率,还是比较大
        • 应该还与后边词有关
        • 近义词概率不接近