- Deep Neural Network,深度神经网络
- 特征工程
- 激活函数
- 梯度下降法
- 反向传播
- 分类
- 历史
- 学习过程
- x→w1D1→fA1→w2D2⋯DL→softmaxy′
- ∂w1∂Loss=i=1∑c∂dL,i∂Loss∂w2∂dL,i
- c为D的向量长度
- ∂w2∂dL,i=∂D2∂dL,1A1⊺
- ∂D2∂dL,1=(∂DL−1⊺∂AL−1∂AL−2⊺∂DL−1⋯∂D2⊺∂A2)⊺∂AL−1∂dL,1
- ∂D∂A是对角矩阵f′(d1)→f′dn
- ∂A⊺∂D是w
- 权重初始化
- w1随机
- 随机系数
- 均匀分布
- ReLU中
- μ=0能更好利用非线性
- σ∝M1方差与总数反相关
- σ∝N1w与神经元个数反相关,因为:
- f(aw)w1=x1
- i=1∑N∂xi∂Loss∂w∂xi,∂w∂xi=af′(aw)w1
- 优化
- Loss分类