EMNLP 2019 RC&QA扫读

EMNLP 2019

  • Counterfactual Story Reasoning and Generation
    • 本来以为是个可以进一步follow的反事实的工作,结果仔细一读也只是卖个反事实故事生成任务然后GPT跑一下,有点难受。。而且不论从人工评价还是自动化评价指标model的反事实效果都很差。而且作者发现自动化评价指标很难在这方面衡量效果,而且就算BERTScore这样需要learn的评价方法虽然和反事实效果有一丢丢正相关,但是也很难区分各个model。。。个人感觉,反事实导致的故事改写可能在这个现阶段来说还是context过长?很多因素不确定。比如不一定是只有反事实哪句话会导致不同,可能生成过程中也会有因素影响。
  • Language Models as Knowledge Bases?
    • 研究pretrain model到底是否可以学习到类似relational这样的常识知识。作者把一些RE和SQuAD数据改造成cloze style的形式,然后直接用pretrain LM来预测word。从实验效果来看BERT这样的大规模预训练模型甚至不需要fine tune就可以达到一些之前的抽取模型的效果或者更高。但是作者也是做出了一些猜测可能是pretrain model数据量更大的原因,但是作者也表示可能BERT之类的也只是简单的memorize了一些matching pattern而已。
  • Multi-Task Learning with Language Modeling for Question Generation
    • 惊了,说是Multi-task实际上只是在encoder的底下放一个LM,然后并且考虑LM的loss,但是我想问为什么不试试放个ELMO这样已经预训练好的LM看看效果呢?模型本身创新新不大,就是相当于输入多了一个LM的feature。
    • 数据集:SQuAD,MS MACRO
  • Can You Unpack That? Learning to Rewrite Questions-in-Context
    • 针对CQA的问题往往会有一个对话历史的QA,这篇文章想做问题改写使得依赖于对话上下文的QA转换为单轮独立的QA问题。做了一些尝试,但是seq2seq还是有一些问题的:比如指代问题,同时问题改写也会出现那种缺失限定语的问题。。。这些现象和QG是类似的。
    • 数据集:在QuAC上演变了一个问题改写数据集:CANARD。可能可以考虑用来做问题改写的训练数据集?
  • GECOR: An End-to-End Generative Ellipsis and Co-reference Resolution Model for Task-Oriented Dialogue
    • 虽然不是RC QA相关,但是提出用生成的方法来做指代消解和省略恢复,生成完整的句子。然后作者用到了一个任务型对话的任务上,多任务的来做这个。感觉这个套路也可以用在别的地方。
    • 其实难点在于怎么获得完整的句子的标注信息,任务型对话还是数据量很少。。。
  • Addressing Semantic Drift in Question Generation for Semi-Supervised Question Answering
    • 本文感觉是一篇真正在用QG做QA的数据增强的文章。主要做了几方面:一方面是之前的QG model,虽然给了答案但是生成的问题往往是无法和答案有什么语义相关的。因而也无法真正对QA任务起到数据增强的作用。也有人通过引入BLEU之类的指标作为reward来优化模型,但是这样的也被前人验证作用有限,因为这种直接的自动化评价指标也容易造成semantic drift。因此作者提出用question paraphrase和question answer来做reward,类似正则一样约束。在QG任务上达到了SOTA。同时还做了半监督QA的实验,生成一些伪数据来帮助QA model也起到了提升效果。另一方面作者也说了自动化评价QG指标不够,因此引入了QA model来进行评价(感觉这部分值得商榷,因为你在train的时候已经引入QA reward了)。同时针对前人合成数据没有对QA model的提升,作者提了一些过滤数据和训练数据的方法,也都是work的。
    • 作者实验部分有很多trick也有细致的讨论,值得好好看看。并且也是目前的SOTA?反正他是这么说的。。。
    • 数据集:SQuAD,HarvestingQA
  • Answer-Supervised Question Reformulation for Enhancing Conversational Machine Comprehension
    • EMNLP MRQA workshop的文章
    • 文章针对CQA问题,提出之前的RC model都是关注于单轮的RC,但是在conversation RC中存在大量指代的现象,因而作者提出可以通过问题改写来解决这样的问题,即把原来的有大量指代的问题(例如he换成具体的人名)改写为类似于单轮RC那样的问题形式。如果出现共指或者省略等情况,就需要改写。把(原始问题,对话历史)作为encoder的输入,然后用decoder(copy机制)改写成单轮问题,至于监督信号的问题作者使用了强化学习的方法,把问题改写的model当成agent利用answer的质量作为reward。
    • copy皆可以copy历史也可以从原始问题中copy,agent需要拿少部分人工标注的数据预训练一下。作者发现分别encoder对话历史和问题比一起encode要好,同时只copy比copy和generate一起的要好。对话中的共指和省略还是很多的,所以解决这些问题的方法应该是有效的。
    • 数据集:QuAC
  • Towards Answer-unaware Conversational Question Generation
    • MRQA workshop的文章,可以认为是Gao et al. 2019的一个后续工作?文章想做不利用答案信息的CQG(Du et al. 2017),而Gao et al. 2019仍然是利用了答案信息。其实整个文章是一个pipeline的model,需要先选择focus chunk然后在确定question pattern,最后生成问题。
    • 从实验效果来看,选focus的方法要远远差于Gao et al. 2019的工作,但是利用正确的foci生成的要好很多,我觉得是因为pattern的作用,这部分其实相当于人为限制了生成空间。但其实怎么说了,首先pipeline干这样的事就存在一些问题,第二就是Gao et al. 2019说的CoQA本身对话历史的流动就是大部分顺序的,所以其实第一步可能还不如规则好使。或者需要更好的选择方式?而且我也觉得要选就不用在人为划chunk了,倒不如分句自然。
    • 数据集:CoQA
  • Answer-guided and Semantic Coherent Question Generation in Open-domain Conversation
    • 文章follow的是open-domain CQG问题,这个是ACL 2018文章提的:那篇文章采用PMI来建模问题中不同的词:疑问词,主题词,常规词,然后使用不同的decoder来decoder不同type的词。这种对话形式的问题生成往往对于相同的内容,会有多种问题的模式。而之前生成问题模型往往都会导致和答案语义不一致、
    • 本文其实是使用CVAE分别与RL,GAN的框架结合。。。CVAE负责生成问题q,在RL框架中则通过和answer计算语义一致相似度,然后在作为reward传回CVAE模型。在GAN的框架中,则是相当于要让生成的问题q尽可能和ground truth的问题相似,来达到保持语义一致。从结果来看RL更好,作者分析这是因为RL的时候显示得到了生成的句子,但是GAN为了训练方便只是用了隐层表示
    • 说实话挖掘的点还是有些意思,但是文章更像现有方法的组合,不过通过这篇文章倒是大概了解CVAE是个什么东西了。。。
    • 数据集:Reddit作者自己抽的
  • Improving Question Generation With to the Point Context
    • 传统answer-aware QG model中把answer作为一个BIO的embedding作为输入,这往往是基于一种假设即answer附近的信息对问题生成任务本身更加有用,但是对于有插入语等语言现象,这种假设往往不成立。因而作者提出仅仅利用unstructured text来生成不太够用,因此用OpenIE抽取了一些三元组,来构建结构化关系,来确定answer span可能和哪些别的span产生关系。这样可以有效避免上述现象。至于做法就是两部分encoder用gate管一下,copy的时候也可以从两部分各自copy。。。
    • 这样做还产生了一个有趣的地方:往往之前的工作都是对于同样的sentence和answer span只能提出相同的问题,但是现在利用不同的关系三元组作为输入可以产生出不同的问题,多角度提问。
    • 数据集:SQuAD
  • Let’s Ask Again: Refine Network for Automatic Question Generation
    • 提出了一个两步decoder的模型来生成问题(其实为什么只做两步呢?也没解释。。)然后为了让第二次decode出来的尽量要比第一次好,引入了RL reward,而用到的baseline则是第一次decode出来的reward。以此来改进模型第二次decode的效果。但是这个工作如果真的是按照他目前开源的代码跑,貌似没人可以成功运行?甚至曝出了测试集调参的事情,那么我觉得他的一些实验结果都不在可信了啊。。。从case study上看,貌似第二次的确会比之前的精细而且长度更长。
    • 数据集:SQuAD,HOTPOT-QA,DROP
    • PS:论文github issues欢迎围观印度人的代码水平和学术能力,因为看到了github的现状,不知道这个工作到底该不该follow了。。。
  • Question-type Driven Question Generation
    • 文章针对answer-aware QG task中出现的问题类型和answer不匹配提出了相应的方法。即通过answer span的隐层表示来初始化一个type decoder来生成第一个疑问词。从upper bound来看确定正确的疑问词的确对QG有很大帮助。而且用answer的hidden state来预测type要比直接用embedding要好,因为可以捕捉上下文信息。
    • 数据集:SQuAD,MARCO
  • Generating Questions for Knowledge Bases via Incorporating Diversified Contexts and Answer-Aware Loss
    • 这篇文章做KBQG,解决了前人没有关注到的两个痛点:第一个是只利用三元组生成问题,往往缺乏多样化的context以供利用。第二个是往往生成的问题的答案不够明确。因而作者提出了通过距离监督引入更多样的context供encoder使用,同时在decoder端利用copy机制可以同时从KB以及context中copy。并且引入了一个额外的answer-aware loss来避免歧义答案,其实是相当于希望得到的答案和问题中的token之间的交叉熵尽可能的小。
    • 感觉这个answer loss可能是由于KBQG的特殊性导致的,但是我们是否可以也做一些answer type作为监督信号,比如一般疑问句,yes/no/unanswerable,span,来帮助生成呢?
    • 数据集:SimpleQuestion
  • Discourse-Aware Semantic Self-Attention for Narrative Reading Comprehension
    • 一篇做NarrativeQA上的model文章,主要创新点在于引入了一些句法和语义结构(SRL,Discourse Parsing,指代消解等)到MRC model中,具体看的话就是attention的几个head的mask用预先定义好的句法结构语义结构表示。(PS: 我见过机翻有人这么做过啊。。。。)
    • 感觉做法非常古典非常语言学,可能是因为NarrativeQA数据本来就非常长使得pretrain model难以发挥威力。而别的NN model也会难以捕捉长距离依赖等问题,因而引入一些额外的监督信号。但是我还是想说类似的做法在别的任务很早就有了。。。同时作者说指代表现的不是很好,有点慌张啊。。。
    • 数据集:NarrtiveQA
  • Quoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning
    • 一篇数据集文章,提出之前的RC数据集往往忽略了篇章中的指代关系,因此针对此专门构建了一个数据集。但是数据集内部没有提供指代的标注,因为是标注人员自己选择的。而且数据集在标注的时候经过了对抗bert。从实验效果来看,的确有将近80%的问题需要指代。同时预训练模型虽然是目前的SOTA但是可能还需要引入进一步指代的信息,才能进一步涨点。
    • 数据集:Quoref
  • Cross-Lingual Machine Reading Comprehension
    • emmmm,和XQA这篇文章着重于更具体的RC任务,但其实感觉没啥不同。文章提出来用source端有丰富资源的语言数据集(例如英文)来帮助训练target的RC数据集(中文等)。先是搞了个和MT一起的模型,和XQA里面的MT不同的是,XQA训练集是英文,所以只是把相应的开发集和测试集翻译到英语inference。但是这里面是翻译到英语进行训练,然后在翻译回去(back translation),当然这样也会有answer span对不齐的问题。所以提出了基于规则的无监督方法,和有监督的自动调整的answer span对齐的方法。但是感觉作者更想搞个类似平行语料的感觉,所以又搞了个Dual BERT。就是一个soure BERT和target BERT一起训练(通过GNMT得到source端的input),中间加了若干层source对target的attention做bilingual decoder,然后一起训练引入了source端的loss等。
    • Dual BERT效果好于和MT一起的。但是提升最大的点居然是用SQuAD fine tune的BERT初始化,当然source端的BERT引入也带来提升。可能和之前Facebook的XLM类似吧,把一种语言的语义关系通过attention引入到target端。文章也讨论了究竟是数据量大的非相似语言效果好还是相似小规模的好,答案是前者。数据规模都不大的时候就无所谓了,可能因为multi-lingual本来就学到和语言独立的信息特征。。。感觉这两篇文章把好做的都做了,XQA告诉我们直接multi-lingual就好了,这篇文章虽然引入了MT但同时也是用multi-bert为主要模块,在上面改的话可能得想想别的法子了。。。。
    • 数据集:SQuAD(英文,日文,法文),CMRC,DRCD。
  • Learning with Limited Data for Multilingual Reading Comprehension
    • 也是一篇关注low resource情境下的MRC文章。文章采用NMT以及QG既可以把语料丰富的数据集转换成target语言同时还可以利用无标注语料生成更多数据。创新在于他提出了一个Refinery model和QA model共同迭代的过程来去噪。refinery model负责给QA对打分,要训练地尽可能的区分正例和负例。而QA model的训练过程也要考虑这个得分再计算loss。因为可能NMT或者QG的级联错误,一开始得到的一些错误的span answer,算法在最后也可以通过打分是否超过阈值修改answer。
    • 数据集:法语和韩语的MRC数据集。
  • Zero-shot Reading Comprehension by Cross-lingual Transfer Learning with Multi-lingual Language Representation Model
    • 也是做多语RC任务的文章。感觉和XQA那个有点像,但是分析的更加系统,重点是用multi-lingual的BERT来做zero shot的多语RC。文章的实验现象也是类似的,当引入GMT进行机器翻译的时候效果会明显降低,不如直接Multi-lingual BERT在source端训练好,直接在target语言上进行测试。
    • 作者还分析了一下multi-lingual BERT到底学到了什么,他首先发现multi-lingual的跨语言能力并不是来自于学到passage和question之间简单的字面匹配,因为逐词翻译后效果下降。同时更改语序有一点影响,但都很轻微。。于是最后也不知道为啥。。。
    • 数据集:英文SQuAD,中文DRCD,韩语SQuAD。
  • A Discrete Hard EM Approach for Weakly Supervised Question Answering
    • 文章提出了一种weakly supervised setting,把multi-mention QA,DROP这样的需要离散推理,semantic parsing归类为一类需要weakly supervision QA的任务,结合到一起做,思路非常新颖。这三种任务的共性在于都是需要建模隐变量的:例如RC问题中往往一个document会有答案的多个mention,但是其实只有一个mention是符合问题语境下的答案,所以这些mention相当于隐变量,我们需要找到最符合的哪一个。还有在DROP这样的数据集中,我们需要进行数学上的运算推理,所以我们需要冲document中选择数字以及选择运算符号等这些隐变量进行组会得到最终的结果。同样semantic parsing也属于类似的情况。都是有一系列候选项隐变量,而只有一个符合最佳答案。
    • 至于如何学,作者通过推导推出来他们的hard EM的方法可以得到一个很简洁的形式,就是只需要优化原始的full supervision的loss,类似于最大化边缘概率(MML)的变种,具体形式还是看论文吧。整篇论文主要提出了一种新的loss学习目标,因而可以适用于各种模型。而且从实验结果来看,要比传统的MML优化目标好很多。
    • 数据集:TriviaQA,NQ,DROP,WikiSQL
  • A Multi-Type Multi-Span Network for Reading Comprehension that Requires Discrete Reasoning
    • 感觉更像是一篇ensemble各种RC model的文章,针对DROP的数据集特性进行了模型上特别多细节的尝试和trick的结合,但是说实话,和上一篇相比没什么大意思。。。感觉就是针对数据集中的数学问题推理形式做了一些特殊的处理。也可以从行文过程看出做的不易,比较有趣的是在生成出数学表达式后又拿回Model里做了一个考虑上下文的表示。multi-span就是用NMS搞一搞。细节论文里写的也不是很清晰得看代码。
    • 模型错误分析可以看出没有做到排序之类更为复杂的数学推理。
    • 数据集:DROP
  • NumNet: Machine Reading Comprehension with Numerical Reasoning
    • 文章focus在MRC中有关数字的推理。文章为了建模数字之间的大小关系以及比较信息,引入数字之间的大小关系以及位置(question or passage)来构图,使用gcn来捕捉数字推理信息。实验上证明了引入比较信息对gnn建模的有效性。但是没有解决怎么multi-span的情况,这个可能得考虑上一篇文章的NMS方法了。同时因为图结构中的数字节点都是预定义好的,因而无法处理算术表达式等情况。所以还是有一定局限的。
    • 数据集:DROP
  • Adversarial Domain Adaptation for Machine Reading Comprehension
    • 组会介绍过了,就是把传统做domain adaptation的对抗方法拿到RC中做了一下。
    • 数据集:SQuAD,NewsQA,MS MARCO
  • Answering Complex Open-domain Questions Through Iterative Query Generation
    • 文章做multi-hop qa中hotpotqa的full-wiki setting。文章主要提出如何高效的检索出相关文档提供给QA model。因为multi-hop QA往往一开始的问题是和多跳后的文档关联不大,所以需要再这个过程中迭代生成新的问题以供检索。而在这里生成的问题并不是真正形式的问题,而是根据已经检索得到的context和原始的问题q,抽出的一个span(相当于还不确定的部分)。然后通过IR system进行检索。作者认为这种迭代更新 q的方法更加显示且高效,比ACL 19上的一些利用神经网络改写q的方法更加节省资源,可控。从效果来看还不错。看起来在multi-hop qa中question的改写还是有一些地方值得探索。。
    • 数据集:Hotpot QA
  • Answers Unite! Unsupervised Metrics for Reinforced Summarization Models
    • 也是做open domain QA检索的文章,但是ARC是选择题形式。作者提出黑箱的IR model只是在lexically的匹配,因而提出在检索出来一些document的基础上,用BERT之类的模型对每个doc打与question或answer语义相关的分数。
    • 感觉是不是因为这个数据集类型没什么人做啊,其实这种验证语义相关的模型思路应该之前也有人做吧?好奇怪。。。
    • 数据集:ARC
  • Quick and (not so) Dirty: Unsupervised Selection of Justification Sentences for Multi-hop Question Answering
    • 无监督对依据句子进行选择并在open domain QA应用。作者先通过检索出n句和question相关的话,然后从中构造C(n,k)个集合。justification sentences set比单独考虑一个句子好在可以建模知识的聚合过程。然后把这些集合按照作者提的ROCC指标计算排序,选top作为justification sentence和question以及候选答案送入分类器(BERT)。
    • 还好ROCC是一堆规则,要不然开销就实在太大了,不过这也是因为所谓的无监督吧。。。
    • 数据集:ARC,MultiRC
  • BiPaR: A Bilingual Parallel Dataset for Multilingual and Cross-lingual Reading Comprehension on Novels
    • 数据集文章,和之前的跨语言RC的不同主要是这个是完全平行的语料(passage,question,answer都是中英对照的)。而且是小说形式,本身就很困难。。。
    • 数据集:BiPaR
  • Cosmos QA: Machine Reading Comprehension with Contextual Commonsense Reasoning
    • 提出了一个新的common sense QA的数据集:Cosmos QA。和之前的commonsense QA相比,除了外部知识外,引入了contextual commonsense reasoning的概念,而且所需要的外部知识也不仅仅是实体关系这样的,更像是日常生活中的常识:比如最好不要把小孩一个人扔家里这种的。。
    • 数据集:Cosmos QA
  • Finding Generalizable Evidence by Learning to Convince Q&A Models
    • 我只能说这真的是一篇神奇的文章,因为太神了,我并没有看懂。。。只能大概描述他在干嘛,至于内在逻辑还是算了。。。感觉上是在做QA的可解释性的工作,分析了人和模型如何根据一个候选答案在passage里面选择证据来确定答案。。。然后这样做作者发现具有一定的泛化能力而且可以有效的减少篇章长度,可能对于篇章较长的MRC任务有一定效果???
    • 数据集:DREAM,RACE
  • Incorporating External Knowledge into Machine Reading for Generative Question Answering
    • 如何在生成式阅读理解中引入额外知识是这篇文章的motivation。基于的框架是seq2seq,然后在decode生成的时候引入了更多的copy机制:既可以从question也可以是从passage,也可以是从vocabulary,也可以从KB。而且如果从KB选择的时候也可以选择究竟哪个fact用于生成。可以发现这两步其实都有离散的隐变量的问题,文章中其实都是用gumbel-softmax来解决的,当然在写loss公式的时候还有一步放缩。从效果来看还是不错的。
    • 数据集:MS MARCO
  • Interactive Language Learning by Question Answering
    • 感觉挺有趣的文章,在一个text based environment里,让agent通过一些action去寻找回答question需要的信息,并且最终回答相应问题。提出了一个很有意思的任务,但是我不太清楚这个和VLN这样的任务的区别?感觉挺神奇的文章,但是我忘了之前看的RL了。。。
    • 数据集:QAit
  • Question Answering for Privacy Policies: Combining Computational and Legal Perspectives
    • 数据集文章。。。不感兴趣。。。
    • 数据集:PRIVACYQA
  • Social IQa: Commonsense Reasoning about Social Interactions
    • Yejin Choi搞得新的常识推理数据集….主要有三类问题:某个事件的Motivation,后续发生的可能事件或者某个事件蕴含的情感。数据的收集来源来自他们组之前提的那个在知识图谱上做常识推理工作的ATOMIC。主实验部分可以看到模型还是不具备很好的推理能力。
    • 还做了一个transfer的实验,现在Social IQA数据集上fine tune BERT然后再在几个规模较小的commonsense数据集上有明显的提升,而且比直接fine tune要好。
    • 数据集:Social IQa
  • KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning
    • 针对commonsense QA这种选择题型常识阅读理解,文章提出先通过question中的每个实体和每个候选项定位到conceptnet的一个子图上。然后在这个子图上进行gcn操作,然后question中的实体和answer之间的路径进行lstm操作。同时还考虑不同path之间的不同,做了一个path级别的attention。
    • 数据集:Commonsense QA
  • PullNet: Open Domain Question Answering with Iterative Retrieval on Knowledge Bases and Text
    • 使用corpus和KB来解决open domain QA。之前的open domain QA的模型大都局限在single hop以及单一检索来源,KB或者corpus。但是pullnet则利用到二者的信息来互补。这个工作的作者之前也有个类似的工作,但是差别在当时的那个工作初期构图的时候用的是一些启发式规则,而现在则采用迭代的方式以及learner逐步构图,这样保证sub-graph更小noisy也更少。
    • 其实主体还是通过question中的实体通过训练分类器以及IR based方法去不断地找doc以及KB里的fact。有个比较重要的问题是在multi-hop open QA中我们什么时候决定停止扩充:GCN的方法来对每个entity 节点分类来确定下一轮这个节点是否要extend。还有个问题是这些中间节点的选择是需要监督信号的,作者采用了从answer按照最短路去找question entity的方法来构造中间节点。
    • 数据集:Complex WebQ,还有几个不常见的。。
  • Ranking and Sampling in Open-Domain Question Answering
    • 文章针对之前open domain QA上的一些问题:在检索阶段只针对passage和question之间的联系忽视了passage和passage之间的关系。但是相关passage的关系很明显可以帮助第二阶段的RC。同时检索阶段训练的时候往往只针对positive paragraph(包含answer span)这么做降低了模型的泛化性。
    • 文章的策略:针对第一点采用了sentence attention的机制建模paragraph之间的关系,并用在ranker的score计算中。第二点则是训练阶段引入了sampling机制。
    • 数据集:Quasar-T,SearchQA,TriviaQA
  • Revealing the Importance of Semantic Retrieval for Machine Reading at Scale
    • 作者提出open domain QA中IR阶段的重要性,并且从paragraph和sentence不同粒度建模语义检索。主要还是一个pipeline的结构,如果我没理解错的话,好像也引入了sampling机制采样负例?除了这个好像也没有别的什么了,感觉故事说的挺好听结果就是在IR用了神经网络打分?既然说是at scale,NN带来的开销就不考虑了么?
    • 加强IR阶段,从hotpotqa结果上来看的确有效,主要是来自supporting sentence的检索。作者消融实验发现paragraph级别上的检索比较重要,既可以检索到关键信息又可以过滤掉噪音。
    • 数据集:FEVER,HotpotQA。
  • What’s Missing: A Knowledge Gap Guided Approach for Multi-hop Question Answering
    • 文章提出了一种现象即openbook qa中fact和最终的答案之间是存在一定联系的,但是这个联系是需要额外的知识库推理得到的( partial context)。所以作者设计了一个pipeline的结构框架,先通过question和已知的fact从fact中选择出一个span,然后根据span和answer choice以及预先从KB中检索到的可能的relation集合得到最终完整的context,并进行QA。
    • 其实有点像上面的一个hotpotqa中每步生成一个span用于下一跳的感觉,感觉这样做的好处其实是可解释性比较直观了。感觉抓住数据集的特点设计的model,但还是比较有意思的。
    • 数据集:Openbook QA
  • Self-Assembling Modular Networks for Interpretable Multi-Hop Reasoning
    • 这篇文章感觉挺新颖的,把hotpotqa中的多步推理分解成了若干单步回答的问题形式。例如find, compare之类的,并对不同的形式采用不同的sub-model,这种结构的网络也叫做Neural Modular Network。作者使用的基本结构是BiDAF中的双向attention加权表示question和context。然后每一步都会预测是Find,Relocate(主要在bridge问题里用来收集前一个子问题的表示),compare中的哪一种。细节还是直接看论文吧,主要是通过一个栈来维护bi-attention map。
    • 作者用了数据增强来增加compare的问题数目,但从结果上来看反而下降了。可能是引入过多噪音了。文章更多的是从推理步骤的可解释性出发,因而效果比baseline要好即可,感觉这倒是一个投论文的方向啊,就是不纠结于效果了,往可解释上靠。在adversarial set的实验(完全需要multi-hop)显示模型效果明显。而且从分析上来看的确学到了一些子问题的判定和子问题之间的顺序调整。
    • 数据集:HotpotQA
  • “Going on a vacation” takes longer than “Going for a walk”: A Study of Temporal Commonsense Understanding
    • 一个时序推理的数据集,说是第一个统一且专门做时序推理的数据集。
    • 数据集:MCTACO
  • A Gated Self-attention Memory Network for Answer Selection
    • 一篇做答案选择的模型的文章,模型本身就是在每一步相当于维护了memory cell,同时每次用gate self-attention来更新。
    • 数据集:TrecQA,WikiQA
  • MICRON: Multigranular Interaction for Contextualizing RepresentatiON in Non-factoid Question Answering
    • 文章针对的是非事实QA,这种QA往往答案是需要跨过多个句子的span进行组合。作者设计了一些不同粒度的question和answer的n-gram的交互,并且好像还有用IDF进行加权。
    • 数据集:WikiPassageQA,InsuranceQA
  • Giving BERT a Calculator: Finding Operations and Arguments with Reading Comprehension
    • 做DROP数据集的文章。在BERT上面加了若干数学推理所需要的操作的MLP分类器,然后根据这些分类器的结果选择合适的推理操作。引入了Merge操作以及Sum3这样的需要组合的数学推理操作。
    • 数据集:DROP,CoQA,Illinois dataset of math problems(一个专门做数学问题的数据集)
  • Machine Reading Comprehension Using Structural Knowledge Graph-aware Network
    • 文章想利用知识图谱中结构化的图谱信息来帮助MRC,之前大部分文章都是用序列化的。但是文章构造图的方式很简单,就是把和问题相关的实体的三元组进行合并而已。没什么意思。。
    • 数据集:ReCoRD
  • Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering
    • 之前做open qa的model大部分都是把passage之间是相互独立的,忽视了passage之间的联系。这导致不同passage得到的answer span的分数不具有可比性。作者在BERT-RC的基础上,让softmax变成了对全部passage的全部tokens进行操作。Model本身还考虑了一个对passage rank的model也是一个BERT。
    • 结果分析还是有些干货,当不采用globally normalized BERT的时候,随着passage数目的增多,效果会很快降低,主要是引入噪音吧,但是加入rerank的话可以比减轻,而multi-bert则会随着passage数目增多而增加效果。另外一个现象是文章做实验发现用单独的BERT encode passage和question然后类似QANet那样交互效果很差,不理想,因此inter-sentence matching可能对于BERT本身不如SEP分开好。
    • 数据集:OpenSQuAD,TriviaQA,Quasar-T,SearchQA
  • QAInfomax: Learning Robust Question Answering System by Mutual Information Maximization
    • 感觉挺有意思的文章,因为QA model往往容易被对抗攻击,前人猜测是因为判别model的loss导致的,因而这里把最大互信息作为一个优化的正则项加入到QA model的训练过程。主要是加了两个限制:一个是针对answer和span附近的窗口上下文的互信息(这个是为了让model不止关注span的起止位置而要关注answer span的整体)。另一个是global的信息即同时考虑answer的summarized表示和question以及passage的互信息。
    • 数据集:Adversarial-SQuAD,SQuAD
  • WIQA: A dataset for “What if…” reasoning over procedural text
    • 数据集文章。。。没看,好像是在一段描述事情变化的文本上做multi-choice QA。
    • 数据集:WIQA

发表评论

电子邮件地址不会被公开。 必填项已用*标注