论文笔记：Tree-LSTM结构的三篇论文总结

对于序列数据而言，从最早的 RNN 结构单元，后来衍生出了 LSTM 以及 GRU 等等变种，这些变种单元的功能更好，并且有效解决了RNN的梯度消失/爆炸问题。对于树结构信息来说也是如此，2015年，三篇论文同时期提出了 Tree-LSTM 的结构，分别是：

1.Compositional Distributional Semantics with Long Short Term Memory（Phong Le et al., 2015）
2.Long Short-Term Memory Over Recursive Structures (Xiaodan Zhu et al., 2015)
3.Improved Semantic Representations FromTree-Structured Long Short-Term Memory Networks (KaiSheng Tai et al., 2015)

下面在说的时候论文1，2，3即按照这个顺序

三篇论文的出发点其实是一样的，都是对之前的经典的递归神经网络的合并部分进行改进（也就是从两个/多个子节点合并信息成为一个父节点的处理部分，例如 Socher 最早的 RvNN 结构中就是简单的使用了一个 W 权重矩阵，然后矩阵乘以两个子节点向量的叠加（concatenation）），当然这里的改进就是受到 LSTM 单元的启发，引入LSTM中一样的记忆单元和门机制来更好地进行组合信息。这个改进的结构就是 Tree-LSTM（不同的论文中的简写不同）。三篇论文还是比较好理解的，在这里记录几个读论文时的小问题。

1.目的

与之前的递归神经网络家族一样，这里要解决的问题就是如何由单个单词的表示得到更高层面上（整个句子或者某些短语）的表示，例如使用词向量的组合得到整个句子的向量表示，然后就可以使用这个表示去做一些更高层的任务，在这三篇论文中都使用了 Sentiment Classification 作为评测的任务。

2.解决问题

这个问题在三篇论文的Introduction部分都有提及，其实原因就跟我们都知道RNN可以处理序列数据，但是依然大家都选择LSTM或GRU一样，原来的RvNN结构也会存在梯度消失/爆炸的问题，另外在论文中还提到了，这些Tree-LSTM结构更好地捕捉了长距离依赖关系（long range dependencies），其实与序列数据的处理是一一对应的，这也是作者们的灵感来源。

3.具体结构

3.1 组合方式

这里的组合方式是指 由子节点的信息（输出信息和状态信息）组合成输入门（input gate）、遗忘门（forget gate）和记忆信息单元（memory cell），当然还有输出门等等，那些相对不太重要。三篇论文的组合方式并不同（如果相同才奇怪），举个例子的话，从论文1中Figure4 和正下方的公式中可以很清楚的看到，结构中为每个子节点都构建了一个输入门，但是在论文3中，3.1节的公式可以看出这里的结构只有一个输入门信息。当然，这只是一个小例子，具体的内容可以看下详细的公式。

3.2 处理数据的特点

在论文1，2中，无论是公式还是结构图，都是直接规定了使用的树结构是二叉的（Binarized），论文3则没有使用这个限制（从那一堆求和符号里就能看出来），它并不对树结构有要求，但是在实验部分又提到了使用的还是二叉化的数据（所以说模型归模型，使用的时候还是更简单的好）

3.3 论文3中的两种Tree-LSTM

论文3中对于 Dependency tree 和 Constituency tree构建了两种不同结构的 Tree-LSTM，这里构建的时候考虑了这两种 parse tree 的一些特点。例如，对于Child-Sum Tree-LSTM结构更适合子节点多（high branching fator），以及子节点无序的情况，这一点从公式中就可以看出，一开始直接就对子节点的所有状态求和，然后再使用这个信息求出一个输入门的信息，也就是只有一个输入门，而且我们直到依存树往往会有很多词语依附于动词，所以从这个动词出发会有很多分支。二另一方面，N-ary Tree-LSTM则是对每一个子节点都维护一个输入门和记忆单元，所以更适合节点数量更少，节点有序的情况，也就是Constituency tree了。
另外，从之后的一些有关句法分析的论文来看，很多论文引用或者做对比的都是论文3，这点在使用时可以注意一下，大概是比较全面或者直接使用了Tree-LSTM这个名称？