2019-10-11 , 217 , 0 , 220
5 循环神经网络
循环神经网络也被称为时间递归神经网络(Recurrent neural network)在前面讨论的卷积神经网络,无法利用历史数据的时间依赖关系,来分析数据特征,对于二维图像来讲,我们已经知道局部感受视野这种空间信息是识别问题的核心,在另外一些与时间相关的问题中,输入的数据是基于时间的序列,卷积网络就无能为力了。
这时候,核心问题是需要了解数据的时间序列关系,实际上,RNN最早是由Hopfiled网络启发变种而来,因此有些类似Hopfiled的联想记忆功能.
例如,如果我们试图预测一下“天空飞过一只__”这句话最后一个词是什么?利用前面输入的一连串的历史信息:“天 空 飞 过 一 只”,我们就能大致猜出最后一个词可能是某种具有飞行功能的事物,历史(时间信息)对于我们推测未来,是极有帮助的,不可轻易抛弃。
而RNN的核心诉求之一,就是能将以往的信息连接到当前任务之中。RNN模型有比较多的变种,一种主流的RNN模型结构如下,右图是简化的表达形式。
图12 RNN时间展开 RNN简化模型
1)x(t)代表在序列索引号t时训练样本的输入。同样的,x(t−1)和x(t+1)代表在序列索引号t−1和t+1时训练样本的输入。
2)h(t)代表在序列索引号t时模型的隐藏状态。h(t)h(t)由x(t)和h(t−1)共同决定。
3)o(t)代表在序列索引号t时模型的输出。o(t)只由模型当前的隐藏状态h(t)决定。
4)L(t)代表在序列索引号t时模型的损失函数。
5)y(t)代表在序列索引号t时训练样本序列的真实输出。
6)U,W,V这三个矩阵是RNN网络模型的参数,并且时间t上是共享的,这体现了RNN的模型的“循环反馈”的思想。
为了估计RNN网络参数,依然可以采用反向传播方法,即通过梯度下降法一轮轮的迭代来解决这个问题。
但是RNN是基于时间反向传播,所以RNN的反向传播有时也叫做BPTT(back-propagation through time)。但是这个反向传播的效果实在不好,传播过程中的梯度很容易消散(爆炸),导致训练终止。
研究人员对于序列索引位置t的隐藏结构做了改进,可以说通过一些技巧让隐藏结构复杂了起来,来避免梯度消失(爆炸)的问题,因此能够处理更长的序列数据。这个特殊RNN就是长短记忆模型Long Short-Term Memory (LSTM),如下图所示:
图13 LSTM
这个结构的具体细节比较复杂,但是在Colah的博客中,进行了非常深入浅出的描述。在LSTM中,通过门控状态来控制传输状态,记住需要长时间记忆的,忘记不重要的信息;而不像普通的RNN那样仅有一种记忆叠加方式。
对很多需要“长期记忆”的任务来说,尤其好用。但也因为引入了很多内容,导致参数变多,也使得训练难度加大了很多。
RNN网络成功离不开一位重要人物Yoshua Bengio,在2003年发表的一篇论文中,Yoshua Bengio第一次提出用神经网络结构来建立自然语言模型,这一思路和方法广泛地影响了后人用神经网络做自然语言处理的研究。
这一网络结构也被迅速引入自然语言处理的应用实践中并取得了良好的成效。
同样是法国人,Yoshua Bengio比Yann Lecun 小几岁,Yann Lecun比较随性而Yoshua Bengio则非常自律的、井井有条。
他12岁就从法国来到加拿大,在上大学时主修的计算机工程,当他偶然看到Hinton的论文时,这改变了他一生的轨迹,Bengio找到了他在接下来的30多年中始终钟情的研究方向:神经网络。
博士毕业后,Bengio也来到ATT的贝尔实验室工作,当时他的组长就是Lecun,那篇关于卷积神经网络的经典文章bengio是三作。我想他当时怎么也想不到30多年后,能够与Hinton和Lecun共同分享2019年的图灵奖。
Bengio的更像一位孤独的战士,从不随波逐流,在人工智能冬天多年来,在机器学习会议上,神经网络都不受欢迎,而Bengio坚持与他的神经网络为伍。
如今,在产业界主推深度学习的大形势下, 在人工智能的研究大牛纷纷加入顶级科技公司的时候,Yoshua Bengio依然显得特立独行,始终没有离开他位于蒙特利尔大学校园中的三楼办公室,尽管他现在是微软的顾问,但他依然是全职的教授。
科研和教学工作对他来说才是根本。长期的教学科研使得他形成了自己的一些观点,例如“不要将每个学生束缚在他们自己的项目中,而要让他们灵活合作。
学生们与教授也不是一对一的关系,应该将整个实验室的人组成一个大的网络。” “新教师就应该主动伸出手去建立联系,老教师们通常都很乐意帮忙,只是他们不会主动。”
Hinton提出深度学习概念激活了整个领域、LeCun发表了卷积神经网络(CNN)这样的阶段性突破成果的前提下,从资历上看,Bengio资历浅,但Bengio涉猎广泛,很难简单概括他做了什么,特别是他对自然语音处理难题的贡献是非常有意义的。
UfqiLong
正是由于他们三个人的坚持才有了现在的神经网络复兴。
7 结语
深度学习的崛起并非偶然,最重要的一点是在很多领域效果出奇的好,尽管面临着难以解释的风险,但是我们在这个过程中看到了坚持的重要性, 看到了时势造英雄的历史必然,尽管三位图灵奖获得者在深度学习发展的历程中,绝大多数时间是孤独的,但最后他们却拥有最多的粉丝。
然而深度学习的成功也让很多其他领域的研究者摒弃的自己的研究路线,这不得不说是一件讽刺的事。但是深度学习的效果之好,让我们很难拒绝,好在现在深度学习这个领域想要在一定程度上参与进来是很简单的一件事。
我们现在有很多简单好用的软件工具,加一个稍微好点的电脑就能运行得起来,我们可以训练一个卷积网络或者循环神经网络做任何想做的事情。
关于深度学习的教学资源更多,没有什么门槛,高中生都能开始着手搭建自己的深度模型。
我相信深度学习普及化最终会产生一个奇妙的结果,让人工智能从量变到质变的飞跃,尽管现在看来,还有很长的路要走。
参考文献
[1]机器学习是如何借鉴物理学思想的?从伊辛模型谈起https://baijiahao.baidu.com/s?id=1594715385620991258&wfr=spider&for=pc
[2] Hinton传奇:你我都是机器人 http://www.sohu.com/a/220848311_473283
[3]吴恩达对话Yann LeCun:从相识Hinton到深度学习崛起 https://baijiahao.baidu.com/s?id=1597004877298782608&wfr=spider&for=pc
[4]Understanding LSTM Networks http://colah.github.io/posts/2015-08-Understanding-LSTMs/
[5]Yoshua Bengio:纯粹与理想,深度学习的30年http://www.sohu.com/a/260312555_133098
[6]Yoshua Bengio:孤军奋战的AI学者和他的乌托邦情怀 http://baijiahao.baidu.com/s?id=1604342752064485824&wfr=spider&for=pc
[7]李飞飞深情回顾ImageNet 8年:改变AI和世界的数据 http://www.sohu.com/a/160215515_473283
[8]Lecun Y , Bottou L , Bengio Y , et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[9]Hinton G E . Boltzmann machine[J]. Encyclopedia of Machine Learning, 2007, 2(5):119-129.
[10]Hinton G E . A Practical Guide to Training Restricted Boltzmann Machines[J]. 2012.
[11]Hinton G E. Deep belief networks[J]. Scholarpedia, 2009, 4(6):5947.
🔗 连载目录
🤖 智能推荐