• NLP
    • nltk
      • 自然语言分析
    • jieba
      • 中文分词
      • cut()
      • import jieba
        mytext=" ".join(jieba.cut(mytext))
    • boson NLP
      • 分词
    • snownlp
      • 用评论数据训练的模型,中文情感分析
      • SnowNLP()z
    • textblob
      • 文本处理,情感分析
    • NLTK
    • Gensim
      • 对象
        • models
          • KeyedVectors
            • load_word2vec_format()
              • 读入词嵌入矩阵
    • spaCy
      • 函数
        • load(”)
          • 使用英语模型
          • en
          • en_core_web_lg
        • nlp()
          • 得到列表
            • text
            • lemma_
            • tag_
          • ents[]
            • 类型为list
            • label_
          • sents
            • 句子,类型为generator
      • 对象
        • displacy
          • 可视化
          • render
            • render(doc, style=‘ent’, jupyter=True)
              • 彩色高亮文本
            • render(doc, style=‘dep’, jupyter=True, options={‘distance’: 90})
              • 词依赖
        • nlp
          • 词向量300维
          • vocab[‘dog’]
            • similarity()
    • pyldavis
      • 主题抽取
    • scikit-learn(sklearn)
      • tsne
        • 高维度向量压缩到二维平面
        • fit_transform()
      • 对象
        • preprocessing
          • LabelEncoder()
            • fit_transform()
              • 转换特征成数字
          • OneHotEncoder()
            • 转换特征成向量(没有了数字的大小关系)
          • StandardScaler()
            • 标准化
            • fit_transform()
              • 拟合并转换
            • transform()
              • 转换
        • cross_validation
          • train_test_split()
            • 分离训练集、测试集
          • cross_val_score()
            • 模型训练过程的准确率
        • tree
          • DecisionTreeClassifier(max_depth=3)
            • 训练决策树
            • fit()
              • 训练
            • predict()
              • 执行预测
        • metrics
          • accuracy_scoreaccuracy_score()
            • 用测试集评估模型打分
          • accuracy_score()
            • 准确率
          • confusion_matrix()
            • 混淆矩阵,[TP,FP],[FN,TN]
          • classification_report()
            • 分类报告
        • model_selection
          • train_test_split()
            • 分离训练集、测试集
            • random_state=1
        • feature_extraction
          • text
            • CountVectorizer()
              • 向量化处理
              • 参数
                • stop_words=
                • max_df=0.8
                • min_df=3
                • token_pattern=u”
              • fit_transform()
              • get_feature_names()
        • naive_bayes
          • MultinomialNB()
        • pipeline
          • make_pipeline()
            • fit()
            • predict()
            • 属性
              • steps
        • feature_extraction
          • TfidfVectorizer()
          • CountVectorizer()
            • fit_transform()
        • decomposition
          • LatentDirichletAllocation()
            • 参数
              • n_topics=5
              • max_iter=50
              • learning_method=‘online’
              • learning_offset=50.0
              • random_state=0
            • fit()
              • 执行
  • 机器学习
    • scikit-learn
      • 机器学习
  • 深度学习
    • TensorFlow
      • 命令
        • tensorboard —logdir=/tflearn_logs/
          • 训练过程日志可视化
      • feature_column
        • numeric_column()
        • categorical_column_with_vocabulary_list()
        • indicator_column()
      • data
        • Dataset
          • from_tensor_slices()
    • PyTorch
    • Theano
    • CNTK
    • MXNet
    • TFLearn
      • 基于TensorFlow
      • input_data()
        • 定义输入
        • 参数
          • shape=[None, 11]
            • 特征矩阵行数,列数
      • fully_connected(net, 6, activation=‘relu’)
        • 添加一层隐藏层, 每层6个神经元
        • 参数
          • activation=‘relu’
            • relu, 激活函数为ReLU
            • softmax,输出层激活函数,可以表示第一分类的可能性
      • regression()
      • DNN()
        • 生成模型
        • fit()
          • 开始拟合
          • 参数
            • n_epoch 训练轮次
            • batch_size 每一次输入模型的数据行数
            • show_metric 要不要打印过程
        • predict()
          • 执行预测
        • evaluate()
          • 执行模型评价
    • Keras
      • 基于TensorFlow
      • Sequential()
      • 对象
        • utils
          • to_categorical()
        • preprocessing
          • text
            • Tokenizer()
              • 词变数字
              • 属性
                • num_words=10000
              • fit_on_texts()
                • 设置内容
              • texts_to_sequences()
                • 执行转换
          • sequence
            • pad_sequences()
              • 句子长度对齐
          • models
            • Sequential()
              • 构建顺序模型
              • add()
                • 添加层
              • summary()
              • layers
                • 层list
                • trainable
                  • 标记是否训练
                • set_weights()
            • compile()
              • 入参
                • optimizer=‘rmsprop’
                  • ‘adam’
                • loss=‘binary_crossentropy’
                  • 损失函数为二元分类
                • metrics=[‘acc’]
                  • ‘accuracy’
            • fit()
              • 训练
              • 入参
                • epochs
                • batch_size
                • validation_data
              • history
                • 字典值
                  • acc
                  • val_acc
                  • val_loss
            • save()
          • layers
            • Embedding()
              • 转换词嵌入矩阵用于add
            • Flatten()
            • Dense()
              • 一层神经网络,用于add
              • 参数
                • activation=‘sigmoid’
                  • ‘relu’
            • DenseFeatures()
              • 创建一层指定特征向量
            • LSTM()
              • 用于add
              • 参数
                • dropout=0.2
                  • 随机设置神经元权重为0,降低模型复杂度
                • recurrent_dropout=0.2
    • TensorLayer
      • 基于TensorFlow
    • Turi Create
      • 深度学习
    • TuriCreate
      • 苹果开发用于移动设备赋能
      • create()
        • 开始训练
        • predict()
          • 执行预测
        • evaluate()
          • 模型评价
      • Image()
        • 读图
          • show()
      • 对象
        • image_analysis
          • load_images()
            • save()
              • 阶段性存储
            • explore()
              • 浏览显示图片
            • random_split(0.8, seed=2)
              • 分数据集、测试集
            • add_row_number()
              • 添加标记
        • image_similarity
          • 图像近似度模型
          • create()
            • query()
              • 找相似图像