05 前馈神经网络：感知器与 BP#

1. 本章定位#

这是神经网络部分最容易出计算和公式题的一章。重点是单层感知器、线性可分、BP 误差反传公式和 BP 局限性。

2. 单层感知器模型#

输入向量：

X=(x_1,x_2,\ldots,x_n)^T

权向量：

W_j=(w_{1j},w_{2j},\ldots,w_{nj})^T

净输入：

net_j=\sum_{i=1}^{n}w_{ij}x_i

输出：

o_j=\operatorname{sgn}(net_j-T_j)=\operatorname{sgn}(W_j^TX)

二维分界线：

w_{1j}x_1+w_{2j}x_2-T_j=0

$n$ 维情况对应一个超平面。

3. 感知器功能与局限#

单计算节点感知器具有分类功能，本质是用一个线性判决面把输入模式分成两类。

局限：

单层感知器只能解决线性可分问题，不能解决异或 XOR。

解决方法：

引入隐层，形成多层感知器。
采用非线性连续转移函数。

4. 感知器学习规则#

感知器学习属于有导师学习。

权值更新：

W_j(t+1)=W_j(t)+\eta[d_j^p-o_j^p(t)]X^p

其中 $\eta$ 为学习率，通常：

0<\eta\le 1

训练步骤：

初始化权值为较小非零随机数。
输入样本对 $\{X^p,d^p\}$ 。
计算输出 $o_j^p(t)=\operatorname{sgn}[W_j^T(t)X^p]$ 。
按学习规则调整权值。
重复直到所有样本输出等于期望输出。

5. 多层感知器#

多层感知器通过隐层实现更复杂分类。

结构	分类能力
无隐层	半平面，线性可分
单隐层	可形成凸域
双隐层	可形成任意复杂形状域

6. BP 网络模型#

三层 BP 网络：

输入层 -> 隐层 -> 输出层

text

输出层：

o_k=f(net_k),\quad net_k=\sum_{j=0}^{m}w_{jk}y_j

隐层：

y_j=f(net_j),\quad net_j=\sum_{i=0}^{n}v_{ij}x_i

单极性 Sigmoid：

f(x)=\frac{1}{1+e^{-x}}

导数：

f'(x)=f(x)[1-f(x)]

7. BP 误差函数#

输出误差：

E=\frac{1}{2}\sum_{k=1}^{l}(d_k-o_k)^2

梯度下降：

\Delta w_{jk}=-\eta\frac{\partial E}{\partial w_{jk}}

\Delta v_{ij}=-\eta\frac{\partial E}{\partial v_{ij}}

8. BP 误差信号与权值更新#

输出层误差信号：

\delta_k^o=(d_k-o_k)o_k(1-o_k)

隐层误差信号：

\delta_j^y=\left(\sum_{k=1}^{l}\delta_k^ow_{jk}\right)y_j(1-y_j)

输出层权值更新：

\Delta w_{jk}=\eta\delta_k^oy_j

输入层到隐层权值更新：

\Delta v_{ij}=\eta\delta_j^yx_i

展开式：

\Delta w_{jk}=\eta(d_k-o_k)o_k(1-o_k)y_j

\Delta v_{ij}=\eta\left(\sum_{k=1}^{l}\delta_k^ow_{jk}\right)y_j(1-y_j)x_i

9. BP 算法流程#

初始化权值 $V,W$ ，设定 $E_{\min}$ 和 $\eta$ 。
输入训练样本。
正向传播，计算隐层和输出层输出。
计算输出误差。
反向传播误差，计算各层误差信号。
调整权值。
判断是否完成一轮训练。
判断总误差是否满足要求。

10. BP 网络能力#

非线性映射能力。
泛化能力。
容错能力。

11. BP 局限性#

标准 BP 的缺陷：

易陷入局部极小。
训练次数多，收敛慢。
隐节点个数缺乏理论指导。
学习新样本可能遗忘旧样本。

误差曲面问题：

平坦区域导致梯度小、下降慢。
多个极小点导致局部最小。

权值和阈值参数总数：

n_w=m(n+1)+l(m+1)

12. BP 改进方法#

增加动量项：

\Delta W(t)=\eta\delta X+\alpha\Delta W(t-1),\quad \alpha\in(0,1)

自适应学习率：

\eta=\beta\eta,\quad \beta<1

\eta=\theta\eta,\quad \theta>1

引入陡度因子：

o=\frac{1}{1+e^{-net/\lambda}}

当 $\Delta E$ 接近 0 而 $d-o$ 仍较大时，可能进入平坦区，可令 $\lambda>1$ 。

13. 本章考点#

必背：

感知器模型和学习规则。
为什么单层感知器不能解决 XOR。
BP 正向传播、误差反传流程。
BP 的 $\delta$ 公式和权值更新公式。
BP 的能力、缺陷和改进方法。