Neural Networks Part 1:Setting up the Architecture

作者:u012005313

原文地址:http://cs231n.github.io/neural-networks-1/


####################################


内容列表:

1.快速介绍(Quick intro without brain analogies)

2.一个神经元模型(modeling one neuron)

2.1 . 生理动机和连接(biological motivation and connections)

2.2 . 单个神经元作为一个线性分类器

2.3 . 常用的激活函数

3.神经网络架构

3.1 . 分层组织

3.2 . 前馈计算实例

3.3 . 表象性(representational power)

3.4 . 设置层数以及每层大小

4.总结

5.其他参考资料


############################################


Quick intro

本小节我们将不通过和大脑的类比来介绍神经网络。在线性分类中,我们使用公式判断测试图像属于哪个类别的,其中,是一个矩阵,是一个列向量,表示图像的全部像素数据。在CIFAR-10的例子中,是一个大小为的列向量,而是一个大小为的行向量,所以输出成绩是10个类别成绩的集合。


神经网络可以实现上述功能,它的公式为。其中,大小为,可以将图像转换为一个100维的中间向量。The function  is a non-linearity that is applied elementwise。在下面我们还会学习几个类似max的函数,但max是最常用的方法。矩阵的大小为,所以最终我们可以得到10个数字的向量,我们把这个向量解释为图像相对于每个类别的成绩。注意,这个非线性(这里指max)是至关重要的-如果我们忽略了它,那么矩阵又将变成一个矩阵,那么整个函数将再次变成输入的线性函数。The non-linearity is where we get the wiggle. 参数通过随机梯度下降(stochastic gradient descent)学习得到,并且它们的梯度通过链式法则进行推导(通过反向传播进行计算)。


一个三层神经网络的公式如下:,其中,