- 探索分析
- 数据获取
- 数据预处理
- 自然语言处理
- 机器学习
- 深度学习
- 2 环境
- 2.1 anaconda
- 2.2 myblinder
- mybinder.org/v2/gh/wshuyi/demo-spacy-text-processing/master?urlpath=lab/tree/demo.ipynb
- 2.3 pipenv
- 3 探索分析
- 3.1 词云
- 3.2 jieba
- 3.3 pandas 与CSV, TSV, pickle格式, JSON格式
- 3.4 三国词频
- mybinder.org/v2/gh/wshuyi/demo-python-handle-text-files/master?urlpath=lab/tree/demo.ipynb
-
def read_sanguo_file():
with open("sanguo.txt", encoding="gb18030") as f:
data = f.read()
return data.replace('\n','')
def make_chinese_plot_ready():
from matplotlib import rcParams
rcParams['font.family'] = 'sans-serif'
rcParams['font.sans-serif'] = ['WenQuanYi Micro Hei']
rcParams['axes.unicode_minus'] = False
def draw_dict(mydict, figsize=(8, 5)):
import pandas as pd
import matplotlib.pyplot as plt
make_chinese_plot_ready()
df = pd.DataFrame(list(mydict.items()), columns=['name', 'times'])
df.set_index('name')['times'].sort_values(ascending=False).plot(kind='bar', figsize=figsize)
plt.tight_layout()
- 3.5 R summarytools
- mybinder.org/v2/gh/wshuyi/demo-summarytoolsbinder/master?urlpath=rstudio
- 3.6 R biblioshiny
- 4 数据获取
- 4.1 quandl 数据下载
- 4.2 阿里云云市场 API
- 4.3 爬虫
- 5 数据预处理
- 5.1 正则
- 5.2 PDF抽取
- 5.3 压缩图片
- 5.4 Python错误处理
- 6 NLP
- 6.1 关键词提取 TF-IDF, TextRank
- 6.2 情感分析
- 6.3 情感分析时间序列
- 6.4 情绪分析
- 6.5 spaCy
- 7 机器学习
- 7.1 监督学习,生成决策树
- 7.2 中文情感分析
- 7.3 非监督学习 抽取主题
- 8 深度学习
- 8.1 深度神经网络,锁定即将流失客户
- 数据预处理:特征工程,向量化,标准化
- 深度学习在线模拟
https://playground.tensorflow.org/#networkShape=2,2
- 8.2 卷积神经网络,图像识别
- 8.3 迁移学习,寻找近似图像
- 8.4 卷积神经网络视频
- 8.5 循环神经网络视频
- 8.6 循环神经网络 中文文本分类
- 8.7 循环神经网络 预测交通拥堵
- 8.8 TensorFlow 分类表格
- 8.9 归一化
- 9 机器学习进阶
- 9.1 二元分类
- 9.2 有效沟通结果
- 9.3 数据集
- 10 答疑