卷积神经网络CNN的反向传播原理

　　上一篇博客《详解神经网络的前向传播和反向传播》推导了普通神经网络（多层感知器）的反向传播过程，这篇博客则讨论一下卷积神经网络中反向传播的不同之处。先简单回顾一下普通神经网络中反向传播的四个核心公式：...

Maples丶丶

37335人浏览 · 2018-08-07 17:46:57

Maples丶丶 · 2018-08-07 17:46:57 发布

回顾

　　上一篇博客《详解神经网络的前向传播和反向传播》推导了普通神经网络（多层感知器）的反向传播过程，这篇博客参考刘建平Pinard 《卷积神经网络(CNN)反向传播算法》对卷积神经网络中反向传播的不同之处进行了讨论。
　　我们先简单回顾一下普通神经网络（DNN）中反向传播的四个核心公式：

δ L j = \partial C \partial z L j = \partial C \partial a L j \partial a L j \partial z L j = \partial C \partial a L j σ' (z L j) (BP1)

δ l = ((w l + 1) T δ l + 1) ⊙ σ' (z l) (BP2)

\partial C \partial b l j = \partial C \partial z l j \partial z l j \partial b l j = \partial C \partial z l j = δ l j (BP3)

\partial C \partial w l j k = \partial C \partial z l j \partial z L j \partial w l j k = \partial C \partial z l j a l - 1 k = a l - 1 k δ l j (BP4)

∂C∂wljk ∂ C ∂ w j k l <script type="math/tex" id="MathJax-Element-5">\frac{\partial C}{\partial w_{jk}^l}</script>和

∂C∂blj ∂ C ∂ b j l <script type="math/tex" id="MathJax-Element-6">\frac{\partial C}{\partial b_j^l}</script>就能使用梯度下降算法对网络进行训练了。

问题提出

　　那么我们能不能直接在CNN上直接套用DNN的传播算法呢？当然不能，不然我也不会写这篇博客了嘿嘿。我们先从最直观的网络结构的角度来分析一下。
1. 全连接层
　　CNN中的全连接层和DNN层结构完全一致，这个可以照搬。
2. 池化层
　　池化层简而言之就是利用feature map的统计特征来代表这块区域。如下图所示，可以利用红色区域的均值、最大值、最小值等统计量来代表该块红色区域，一方面引入了平移不变性（这个在另外一篇博客中讲），一方面减少了参数数量。但是我们在反向传播时，知道右边 2×2 <script type="math/tex" id="MathJax-Element-75">2\times2</script>区域的 δl <script type="math/tex" id="MathJax-Element-76">\delta^l</script>的情况下，如何计算左边完整区域的 δl−1 <script type="math/tex" id="MathJax-Element-77">\delta^{l-1}</script>?而且池化层一般没有激活函数，这个问题怎么处理？

3. 卷积层
　　卷积层是通过张量卷积，或者说是若干个矩阵卷积求和而得到当前层的输出，这和DNN直接进行矩阵乘法有很大区别，那么如何递推相应的

δl−1 δ l − 1 <script type="math/tex" id="MathJax-Element-78">\delta^{l-1}</script>呢？

4. 反卷积层和BN层
　　这个日后弄懂再补上来。

池化层的反向传播

　　池化层没有激活函数可以直接看成用线性激活函数，即 σ(z)=z <script type="math/tex" id="MathJax-Element-11">\sigma(z)=z</script>，所以 σ′(z)=1 <script type="math/tex" id="MathJax-Element-12">\sigma'(z)=1</script>。接下来看看池化层如何递推 δl <script type="math/tex" id="MathJax-Element-13">\delta^l</script>。
　　在前向传播时，我们一般使用max或average对输入进行池化，而且池化区域大小已知。反向传播就是要从缩小后的误差 δl+1 <script type="math/tex" id="MathJax-Element-14">\delta^{l+1}</script>，还原池化前较大区域对应的误差 δl <script type="math/tex" id="MathJax-Element-15">\delta^l</script>。根据（BP2）， δl=((wl+1)Tδl+1)⊙σ′(zl) <script type="math/tex" id="MathJax-Element-16">\delta^l=((w^{l+1})^T\delta^{l+1})\odot \sigma'(z^l)</script>，在DNN中 wl+1 <script type="math/tex" id="MathJax-Element-17">w^{l+1}</script>是已知的，所以我们可以直接通过矩阵乘法将 l+1 <script type="math/tex" id="MathJax-Element-18">l+1</script>层的误差映射回 l <script type="math/tex" id="MathJax-Element-19">l</script>层的误差，但对于池化层，要求 $(w^{l + 1})^{T} δ^{l + 1}$ <script type="math/tex" id="MathJax-Element-20">(w^{l+1})^T\delta^{l+1}</script>就需要一些特殊的操作了。
　　用一个例子可以很清楚的解释这一过程：假设现在我们是步长为1的 2×2 <script type="math/tex" id="MathJax-Element-21">2\times 2</script>池化， 4×4 <script type="math/tex" id="MathJax-Element-22">4 \times 4</script>大小的区域经过池化后变为 2×2 <script type="math/tex" id="MathJax-Element-23">2\times 2</script>。如果 δl <script type="math/tex" id="MathJax-Element-24">\delta_l</script>的第k个子矩阵为：

δ l + 1 k = [2486]

δl+1k δ k l + 1 <script type="math/tex" id="MathJax-Element-26">\delta_k^{l+1}</script>中4个误差值分别和原来

4×4 4 × 4 <script type="math/tex" id="MathJax-Element-27">4\times 4</script>大小的哪个子区域所对应，根据前向传播中池化窗口的移动过程，我们可以很轻松的确定2对应左上角

2×2 2 × 2 <script type="math/tex" id="MathJax-Element-28">2\times 2</script>的区域，8对应右上角

2×2 2 × 2 <script type="math/tex" id="MathJax-Element-29">2\times 2</script>的区域，以此类推。这一步完成之后，我们就要对不同类型的池化进行不同的操作。
　　如果是max pooling，我们只需要记录前向传播中最大值的位置，然后将误差放回去即可。如果最大值位置分别为

2×2 2 × 2 <script type="math/tex" id="MathJax-Element-30">2\times 2</script>的左上，右下，右上，左下，还原后的矩阵为：

(w l + 1) T δ l + 1 = ⎡ ⎣ ⎢ ⎢ ⎢ 2000004000060800 ⎤ ⎦ ⎥ ⎥ ⎥

(w l + 1) T δ l + 1 = ⎡ ⎣ ⎢ ⎢ ⎢ 0.5 0.5 11 0.5 0.5 11 22 1.5 1.5 22 1.5 1.5 ⎤ ⎦ ⎥ ⎥ ⎥

(wl+1)Tδl+1 ( w l + 1 ) T δ l + 1 <script type="math/tex" id="MathJax-Element-33">(w^{l+1})^T\delta^{l+1}</script>之后就可以利用

δl=((wl+1)Tδl+1)⊙σ′(zl) δ l = ( ( w l + 1 ) T δ l + 1 ) ⊙ σ ′ ( z l ) <script type="math/tex" id="MathJax-Element-34">\delta^l=((w^{l+1})^T\delta^{l+1})\odot \sigma'(z^l)</script>求得

δlk δ k l <script type="math/tex" id="MathJax-Element-35">\delta_k^l</script>了。

卷积层的反向传播

　　继续回到方程（BP2）， δl=((wl+1)Tδl+1)⊙σ′(zl) <script type="math/tex" id="MathJax-Element-36">\delta^l=((w^{l+1})^T\delta^{l+1})\odot \sigma'(z^l)</script>，那你可能会问，之前说池化层因为 wl+1 <script type="math/tex" id="MathJax-Element-37">w^{l+1}</script>无法直接计算，所以需要特殊操作，那么卷积核的参数不是知道吗，岂不是可以直接代入计算了。是带进去计算没错，但是权重矩阵需要旋转180°。为什么呢，下面以一个简单的例子说明。
　　假设 l <script type="math/tex" id="MathJax-Element-38">l</script>层的激活输出是一个 $3 \times 3$ <script type="math/tex" id="MathJax-Element-39">3\times 3</script>的矩阵，第 l+1 <script type="math/tex" id="MathJax-Element-40">l+1</script>层卷积核 Wl+1 <script type="math/tex" id="MathJax-Element-41">W^{l+1}</script>是一个 2×2 <script type="math/tex" id="MathJax-Element-42">2\times 2</script>的矩阵，卷积步长为1，则输出 zl+1 <script type="math/tex" id="MathJax-Element-43">z^{l+1}</script>是一个 2×2 <script type="math/tex" id="MathJax-Element-44">2\times 2</script>的矩阵。我们简化 bl=0 <script type="math/tex" id="MathJax-Element-45">b^l=0</script>，则有：