DNN

Deep Neural Network，深度神经网络
特征工程
激活函数
梯度下降法
反向传播
分类
- 惯序模型
- 函数性模型
  - 多输入·输出
历史
- 原来的BP模型
  - 2012年后发展成深度学习
学习过程
- $x \to w_{1} D_{1} \to f A_{1} \to w_{2} D_{2} \dots D_{L} \to so f t ma x y^{'}$
  - $\frac{\partial L oss}{\partial w _{1}} = i = 1 \sum c \frac{\partial L oss}{\partial d _{L, i}} \frac{\partial d _{L, i}}{\partial w _{2}}$
    - c为D的向量长度
    - $\frac{\partial d _{L, i}}{\partial w _{2}} = \frac{\partial d _{L, 1}}{\partial D _{2}} A_{1}^{⊺}$
      - $\frac{\partial d _{L, 1}}{\partial D _{2}} = (\frac{\partial A _{L - 1}}{\partial D _{L - 1}^{⊺}} \frac{\partial D _{L - 1}}{\partial A _{L - 2}^{⊺}} \dots \frac{\partial A _{2}}{\partial D _{2}^{⊺}})^{⊺} \frac{\partial d _{L, 1}}{\partial A _{L - 1}}$
        
        $\frac{\partial A}{\partial D}$ 是对角矩阵 $f^{'} (d_{1}) \to f^{'} d_{n}$
        
        趋向0
        
        $\frac{\partial D}{\partial A ^{⊺}}$ 是w
权重初始化
- $w_{1}$ 随机
  - 随机系数
    - 均匀分布
      - ReLU中
        
        $μ = 0$ 能更好利用非线性
        
        $σ \propto \frac{1}{M}$ 方差与总数反相关
        
        $σ \propto \frac{1}{N}$ w与神经元个数反相关，因为:
        
        $f (a w) w_{1} = x_{1}$
        
        $i = 1 \sum N \frac{\partial L oss}{\partial x _{i}} \frac{\partial x _{i}}{\partial w}, \frac{\partial x _{i}}{\partial w} = a f^{'} (a w) w_{1}$
        
        要控制 $\frac{\partial L oss}{\partial w}$ 幅度，N越大，w越小
优化
- 局部极小问题
  - 越高次项，局部极小越多
- 悬崖下降
  - Loss可能增大
- 平缓
  - 不好收敛，训练时间长
- 鞍点
  - $\frac{\partial L oss}{\partial w} = 0$ 但有下降空间
    - 所有方向 $f^{''}$ 都<0
Loss分类
- 和目标的Loss
- 各层的Loss

Ukeate笔记

探索

DNN

关系图谱

反向链接