Python 模块 AI

NLP
- nltk
  - 自然语言分析
- jieba
  - 中文分词
  - cut()
  - ```
  import jieba
  mytext=" ".join(jieba.cut(mytext))
```
- boson NLP
  - 分词
- snownlp
  - 用评论数据训练的模型，中文情感分析
  - SnowNLP()z
- textblob
  - 文本处理，情感分析
- NLTK
- Gensim
  - 对象
    - models
      - KeyedVectors
        
        load_word2vec_format()
        
        读入词嵌入矩阵
- spaCy
  - 函数
    - load(”)
      - 使用英语模型
      - en
      - en_core_web_lg
    - nlp()
      - 得到列表
        
        text
        
        lemma_
        
        tag_
      - ents[]
        
        类型为list
        
        label_
      - sents
        
        句子，类型为generator
  - 对象
    - displacy
      - 可视化
      - render
        
        render(doc, style=‘ent’, jupyter=True)
        
        彩色高亮文本
        
        render(doc, style=‘dep’, jupyter=True, options={‘distance’: 90})
        
        词依赖
    - nlp
      - 词向量300维
      - vocab[‘dog’]
        
        similarity()
- pyldavis
  - 主题抽取
- scikit-learn(sklearn)
  - tsne
    - 高维度向量压缩到二维平面
    - fit_transform()
  - 对象
    - preprocessing
      - LabelEncoder()
        
        fit_transform()
        
        转换特征成数字
      - OneHotEncoder()
        
        转换特征成向量(没有了数字的大小关系)
      - StandardScaler()
        
        标准化
        
        fit_transform()
        
        拟合并转换
        
        transform()
        
        转换
    - cross_validation
      - train_test_split()
        
        分离训练集、测试集
      - cross_val_score()
        
        模型训练过程的准确率
    - tree
      - DecisionTreeClassifier(max_depth=3)
        
        训练决策树
        
        fit()
        
        训练
        
        predict()
        
        执行预测
    - metrics
      - accuracy_scoreaccuracy_score()
        
        用测试集评估模型打分
      - accuracy_score()
        
        准确率
      - confusion_matrix()
        
        混淆矩阵，[TP,FP],[FN,TN]
      - classification_report()
        
        分类报告
    - model_selection
      - train_test_split()
        
        分离训练集、测试集
        
        random_state=1
    - feature_extraction
      - text
        
        CountVectorizer()
        
        向量化处理
        
        参数
        
        stop_words=
        
        max_df=0.8
        
        min_df=3
        
        token_pattern=u”
        
        fit_transform()
        
        get_feature_names()
    - naive_bayes
      - MultinomialNB()
    - pipeline
      - make_pipeline()
        
        fit()
        
        predict()
        
        属性
        
        steps
    - feature_extraction
      - TfidfVectorizer()
      - CountVectorizer()
        
        fit_transform()
    - decomposition
      - LatentDirichletAllocation()
        
        参数
        
        n_topics=5
        
        max_iter=50
        
        learning_method=‘online’
        
        learning_offset=50.0
        
        random_state=0
        
        fit()
        
        执行
机器学习
- scikit-learn
  - 机器学习
深度学习
- TensorFlow
  - 命令
    - tensorboard —logdir=/tflearn_logs/
      - 训练过程日志可视化
  - feature_column
    - numeric_column()
    - categorical_column_with_vocabulary_list()
    - indicator_column()
  - data
    - Dataset
      - from_tensor_slices()
- PyTorch
- Theano
- CNTK
- MXNet
- TFLearn
  - 基于TensorFlow
  - input_data()
    - 定义输入
    - 参数
      - shape=[None, 11]
        
        特征矩阵行数，列数
  - fully_connected(net, 6, activation=‘relu’)
    - 添加一层隐藏层, 每层6个神经元
    - 参数
      - activation=‘relu’
        
        relu, 激活函数为ReLU
        
        softmax，输出层激活函数，可以表示第一分类的可能性
  - regression()
  - DNN()
    - 生成模型
    - fit()
      - 开始拟合
      - 参数
        
        n_epoch 训练轮次
        
        batch_size 每一次输入模型的数据行数
        
        show_metric 要不要打印过程
    - predict()
      - 执行预测
    - evaluate()
      - 执行模型评价
- Keras
  - 基于TensorFlow
  - Sequential()
  - 对象
    - utils
      - to_categorical()
    - preprocessing
      - text
        
        Tokenizer()
        
        词变数字
        
        属性
        
        num_words=10000
        
        fit_on_texts()
        
        设置内容
        
        texts_to_sequences()
        
        执行转换
      - sequence
        
        pad_sequences()
        
        句子长度对齐
      - models
        
        Sequential()
        
        构建顺序模型
        
        add()
        
        添加层
        
        summary()
        
        layers
        
        层list
        
        trainable
        
        标记是否训练
        
        set_weights()
        
        compile()
        
        入参
        
        optimizer=‘rmsprop’
        
        ‘adam’
        
        loss=‘binary_crossentropy’
        
        损失函数为二元分类
        
        metrics=[‘acc’]
        
        ‘accuracy’
        
        fit()
        
        训练
        
        入参
        
        epochs
        
        batch_size
        
        validation_data
        
        history
        
        字典值
        
        acc
        
        val_acc
        
        val_loss
        
        save()
      - layers
        
        Embedding()
        
        转换词嵌入矩阵用于add
        
        Flatten()
        
        Dense()
        
        一层神经网络，用于add
        
        参数
        
        activation=‘sigmoid’
        
        ‘relu’
        
        DenseFeatures()
        
        创建一层指定特征向量
        
        LSTM()
        
        用于add
        
        参数
        
        dropout=0.2
        
        随机设置神经元权重为0，降低模型复杂度
        
        recurrent_dropout=0.2
- TensorLayer
  - 基于TensorFlow
- Turi Create
  - 深度学习
- TuriCreate
  - 苹果开发用于移动设备赋能
  - create()
    - 开始训练
    - predict()
      - 执行预测
    - evaluate()
      - 模型评价
  - Image()
    - 读图
      - show()
  - 对象
    - image_analysis
      - load_images()
        
        save()
        
        阶段性存储
        
        explore()
        
        浏览显示图片
        
        random_split(0.8, seed=2)
        
        分数据集、测试集
        
        add_row_number()
        
        添加标记
    - image_similarity
      - 图像近似度模型
      - create()
        
        query()
        
        找相似图像

Ukeate笔记

探索

Python 模块 AI

关系图谱

反向链接