论文笔记:Tree-LSTM结构的三篇论文总结

导读:本篇文章讲解 论文笔记:Tree-LSTM结构的三篇论文总结,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com

对于序列数据而言,从最早的 RNN 结构单元,后来衍生出了 LSTM 以及 GRU 等等变种,这些变种单元的功能更好,并且有效解决了RNN的梯度消失/爆炸问题。对于树结构信息来说也是如此,2015年,三篇论文同时期提出了 Tree-LSTM 的结构,分别是:

  • 1.Compositional Distributional Semantics with Long Short Term Memory(Phong Le et al., 2015)
  • 2.Long Short-Term Memory Over Recursive Structures (Xiaodan Zhu et al., 2015)
  • 3.Improved Semantic Representations FromTree-Structured Long Short-Term Memory Networks (KaiSheng Tai et al., 2015)

下面在说的时候论文1,2,3即按照这个顺序

三篇论文的出发点其实是一样的,都是对之前的经典的递归神经网络的合并部分进行改进(也就是从两个/多个子节点合并信息成为一个父节点的处理部分,例如 Socher 最早的 RvNN 结构中就是简单的使用了一个 W 权重矩阵,然后矩阵乘以两个子节点向量的叠加(concatenation)), 当然这里的改进就是受到 LSTM 单元的启发,引入LSTM中一样的记忆单元和门机制来更好地进行组合信息。这个改进的结构就是 Tree-LSTM(不同的论文中的简写不同)。三篇论文还是比较好理解的,在这里记录几个读论文时的小问题。

1.目的

与之前的递归神经网络家族一样,这里要解决的问题就是如何由单个单词的表示得到更高层面上(整个句子或者某些短语)的表示,例如使用词向量的组合得到整个句子的向量表示,然后就可以使用这个表示去做一些更高层的任务,在这三篇论文中都使用了 Sentiment Classification 作为评测的任务。

2.解决问题

这个问题在三篇论文的Introduction部分都有提及,其实原因就跟我们都知道RNN可以处理序列数据,但是依然大家都选择LSTM或GRU一样,原来的RvNN结构也会存在梯度消失/爆炸的问题,另外在论文中还提到了,这些Tree-LSTM结构更好地捕捉了长距离依赖关系(long range dependencies),其实与序列数据的处理是一一对应的,这也是作者们的灵感来源。

3.具体结构

3.1 组合方式

这里的组合方式是指 由子节点的信息(输出信息和状态信息)组合成输入门(input gate)、遗忘门(forget gate)和记忆信息单元(memory cell),当然还有输出门等等,那些相对不太重要。三篇论文的组合方式并不同(如果相同才奇怪),举个例子的话,从论文1中Figure4 和正下方的公式中可以很清楚的看到,结构中为每个子节点都构建了一个输入门,但是在论文3中,3.1节的公式可以看出这里的结构只有一个输入门信息。当然,这只是一个小例子,具体的内容可以看下详细的公式。

3.2 处理数据的特点

在论文1,2中,无论是公式还是结构图,都是直接规定了使用的树结构是二叉的(Binarized),论文3则没有使用这个限制(从那一堆求和符号里就能看出来),它并不对树结构有要求,但是在实验部分又提到了使用的还是二叉化的数据(所以说模型归模型,使用的时候还是更简单的好)

3.3 论文3中的两种Tree-LSTM

论文3中对于 Dependency tree 和 Constituency tree构建了两种不同结构的 Tree-LSTM,这里构建的时候考虑了这两种 parse tree 的一些特点。例如,对于Child-Sum Tree-LSTM结构更适合子节点多(high branching fator),以及子节点无序的情况,这一点从公式中就可以看出,一开始直接就对子节点的所有状态求和,然后再使用这个信息求出一个输入门的信息,也就是只有一个输入门,而且我们直到依存树往往会有很多词语依附于动词,所以从这个动词出发会有很多分支。二另一方面,N-ary Tree-LSTM则是对每一个子节点都维护一个输入门和记忆单元,所以更适合节点数量更少,节点有序的情况,也就是Constituency tree了。
另外,从之后的一些有关句法分析的论文来看,很多论文引用或者做对比的都是论文3,这点在使用时可以注意一下,大概是比较全面或者直接使用了Tree-LSTM这个名称?

4 实验

实验部分三篇论文都是使用的SST(Stanford Sentiment Treebank)从不同层次(root层次/短语层次)以及不同粒度上进行实验。从结果上来看,不同结构的 Tree-LSTM 也确实结果有稍微的差距。

参考

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/116686.html

(0)
seven_的头像seven_bm

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!