论文笔记:Reasoning about Entailment with Neural Attention

导读:本篇文章讲解 论文笔记:Reasoning about Entailment with Neural Attention,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com

写在前面

Attention mechanism 作为一种模型效果提升的方法,再很多领域都有应用,这篇论文也算是学习 Attention mechanism的经典论文之一,文中提出了一种 Attention based 的神经网络模型,用于文本蕴含推理,并取得state-of-art 的结果(当时)。

文中最主要的模型是建立 word-by-word Attention 模型,与之做对比的还有几个模型,像基础的 LSTM 模型以及更深一步的双向Attention 等等,具体来说,就是这四个模型(当然提到了不止这四种,也可以理解更多个,像LSTM那部分就可以拆开来看,不过大部分是背景板。。问题不大):

  • 第一个模型实际上就是之前常见的文本蕴含推理的方式,首先使用一个 LSTM 处理 premise,然后将 最后的状态作为第二个 LSTM 的输入,然后处理 hypothesis ,最后输出的向量作为分类的依据这在文中 2.1,2。2节介绍。
  • 第二个模型是加入Attention 的模型,这里的 Attention 建立在整个文本层面,在2.3节中介绍。
  • 第三个是文中主要的模型,也是最后证明效果最好的模型,我理解是逐字注意力机制模型,在2.4节中介绍。
  • 最后是第三个模型的改版,只是改成了双向的 Attention,但是实验中证明这样做反而结果下降了,在2.5节中介绍。

个人觉得这篇论文最好的一部分是实验环节,从实验部分可以看到很多设计对比试验的很多tricks,像应该从什么角度挑选有说服力的例子等等。

以下为个人理解和总结,欢迎指正~

1. Abstract & Introduction

按照惯例,这一部分对全文的工作做了一个基本的概括。论文中提到,自动的文本蕴含识别一直以来都是依靠手工特征工程,端到端的神经网络模型在这一问题上都失败了,论文提出了一种基于LSTM的神经网络模型,同时处理两个句子来判断它们之间的蕴含关系,并且使用了 Attention machanism 来改进模型。

在 Introduction 部分,对文本蕴含识别(Recognizing textual entailment, RTE)任务作了介绍,对于两个文本,这种蕴含关系判断实际上就是判断三种关系:

  • Neutral (不相关)
  • Contradiction(矛盾)
  • Entailment (蕴含)

并且这一任务在很多NLP任务中都有应用(例如信息提取,关系提取,机器翻译,文本自动摘要等等)

此外,这一部分还提到了关于这一任务的一个重要因素:数据集质量,SNLI数据集的质量相较之前提高了很多,这也是文中模型效果更好地一个原因。

这一部分最后提到了论文的三个贡献:

  • 提出了一个基于LSTM的模型来处理文本蕴含任务
  • 使用 word-by-word 的 Attention mechanism 来改进模型
  • 详细定性分析了实验结果

2. Methods

这部分实际上划分了四个模型,开始部分介绍了 LSTM单元的计算过程,然后接下来是四种模型分别介绍,四种结构都在图中展示,也就是文中 Figure 1:


(0)
seven_的头像seven_bm

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!