AAAI 2020 RC&QA扫读

未放出的工作:

  • Multi-Task Learning with Generative Adversarial Training for Multi-Passage Machine Reading Comprehension
  • Attentive User-Engaged Adversarial Neural Network for Community Question Answering
  • Generating Well-formed Answers by Machine Reading with Stochastic Selector Networks
  • To Avoid the Pitfall of Missing Labels in Feature Selection: A Generative Model Gives the Answer
  • A Robust Adversarial Training Approach to Machine Reading Comprehension
  • Knowledge and Cross-Pair Pattern Guided Semantic Matching for Question Answering
  • Neural Question Generation with Answer Pivot
  • Translucent Answer Predictions in Multi-Hop Reading Comprehension

  • Cross-Lingual Natural Language Generation via Pre-Training
    • 做zero shot setting下的跨语言生成(XNLG)pretrain,但是实际上考虑的任务很少只有QG和摘要。具体做法和XLM的区别,就是会考虑到decoder怎么pretrain:单语上是DAE,encoder端加入换序,删词或者mask的操作,decoder要生成原始句子。但如果不考虑双语的话会导致生成的句子和source端一样,所以双语上拿机器翻译当成一个task pretrain。
    • emmmm怎么说了,感觉好像没什么有意思的东西啊。。。。自己对cross lingual pretrain model也还不够了解。。。
  • Capturing Greater Context for Question Generation
    • 做paragraph级别的QG。作者认为前人做paragraph级别的QG的时候attention还是过于粗糙,于是搞了个两阶段的attention的model,就是第二阶段用到上一阶段的attention权重表示,接着attention。。因为做的是抽取式数据集上的QG所以作者加了个最后copy的时候的mask。
    • 数据集:SQuAD,MS MACRO,NewsQA
  • Improving Question Generation with Sentence-level Semantic Matching and Answer Position Inferring
    • 这篇文章做的是以sentence answer-aware的QG问题。文章针对以往的QG模型在decoder过程中没有focus原始的问题类型和语义以及copy出答案无关词的情况,提出了利用question decode完成后拿到的表示q进行多任务训练:包括sentence级别的语义任务,即和document sentence的表示一起输入一个model进行判断是否是语义一致的。另一个则是answer position inferring任务,其实就是RC问题咯。
    • 从效果上来看,单独的两个任务甚至还不如maxout generator那篇。综合起来提升效果也不大。
    • 数据集:SQuAD,MARCO
  • An Empirical Study of Content Understanding in Conversational Question Answering
    • 分析CQA数据集到底是否可以反应model的文章理解能力,以及对话理解能力。从去掉text和conversation history的结果来看,很多高分model去掉text也比conversation history的效果要好。这说明其实并没有理解text。而且还发现QuAC上训练好的model大都依赖之前答案的位置信息。而CoQA上的model没有学好很好的cross-sentence信息。总之就是把这两个数据集的bias都指出来了。
    • 感觉文章还没怎么写好的感觉有一些图表貌似标错了。
    • 数据集:QuAC,CoQA
  • Generating Persona Consistent Dialogues by Exploiting Natural Language Inference
    • 并不是做QA的文章。主要想看一下对话领域怎么用对抗和对话一致性的。生成器还是一个seq2seq,但是用RL引入了一个Evaluator:主要衡量两部分naturalness和consistency。语言的自然性靠的是对抗:区别人写的和机器生成的。对话一致性则是用一个fix的NLI model,这部分的reward用entailment的logit减去contradiction。
    • 用了一些rollout的采样策略。
  • Unsupervised Domain Adaptation on Reading Comprehension
    • 文章研究如何把在source domain上训练的RC模型顺利迁移到target端,作者强调要在large target domain的数据上也work。方法是利用BERT作为特征抽取器并在上层用MLP做分类器(和传统BERT做RC一样)在source端上训练。然后在轮流使用带过滤的self training和conditional adversarial learning来训练。
    • Conditional Adversarial Learning是指在对抗训练的过程中不止使用feature进行对抗,还要带上分类器的结果,就是output logit,这样据说可以在domain adaptation上更好地对齐。然后文章这里直接就用了第一次提出这个想法的那篇文章一样的思路,使用Multilinear map以及熵控制等方法。感觉上这点自己之前并不了解算是涨了见识,但是这篇文章感觉也就这点创新了。
    • 论文还强调了影响泛化能力不止有语料来源还有问题的不同形式。然后文章模型最关键的部分从实验来看是self training、
    • 数据集:SQuAD,CNN,Daily Mail, NewsQA,CoQA,DROP
  • Forget Me Not: Reducing Catastrophic Forgetting for Domain Adaptation in Reading Comprehension
    • 文章也是针对跨领域的RC问题,但是针对的是如何解决RC领域迁移学习中的灾难性遗忘问题。不过作者也说方法可以用在别的任务上。
    • 方法主要是考虑引入正则项,来控制fine tune时候参数的更新,直觉上来说比如cos可以让fine tune的时候不要便宜过大,L2可以让参数距离之间不要过大,还有从L1角度引入的EWC。最后实验是加了所有的正则项。
    • 由于EWC不甚了解就直接看实验结果现象好了。效果发现在BERT上加这些正则项,其实并不会太影响到fine tune结果甚至还有提升。并且在持续学习和不同任务迁移上都能保持最佳效果。感觉针对的问题角度还是很新颖的。
    • 数据集:MS MARCO, SQuAD, BioASQ。
  • Semantics-aware BERT for Language Understanding
    • 算是做BERT model改进的文章。用SRL的标签来做embedding增强BERT的表示,作者希望这样可以整合进更为丰富的语义信息。但是从效果来看提升也不是很大啊。。而且还是基于BERT做backbone,不知道在RoBERTa或者XLNet的基础上是否还有提升?
  • SG-Net: Syntax-Guided Machine Reading Comprehension
    • 上一篇的作者的文章。在MRC的model中加入句法指导的信息,具体来说,就是BERT过完之后引入多余的头只attention句法树上的父亲或后代节点。然后再聚合一下。
    • 在RACE效果还挺好的,而且对于长句问题效果要比BERT好。
    • 数据集:SQuAD,QuAC
  • DCMN+: Dual Co-Matching Network for Multi-choice Reading Comprehension
    • 文章主要是提出之前的模型往往考虑passage和question的交互或者question对answer的交互都是单向的,因此他提出用双向的交互(他认为这样更能保证对称性??)。同时引入了一个选择相关句子的任务来减少passage的噪音,同时他还引入了answer和answer之间的交互。感觉应该是试了不少的结构。
    • 这篇文章能在RACE数据集以及多个多项选择RC数据集上做到SOTA还是颇为不易的。而且尽管使用了XLNet,BERT这样的工具作为底层encoder,但是仍能带来不小的提升。实验分析也分析的较多。
    • 数据集:RACE,MCTest等。
  • Graph-Based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering
    • 看版式是投往了AAAI 2020了,采用了XLNet+GNN(从公式上来看类似于GAT的变种),在commonsense QA上得到了SOTA的结果,截止到现在貌似仍然是。和前人模型相比,他们引入了更多的额外知识(结构化的Concept Net和非结构化的Wikipedia),并根据不同的来源分别构造了两张图。并按照图的顺序做拓扑结构输入到XLNet里,并把结果用来过GNN,最后还拿GNN的表示和XLNet算个attention权重。感觉更加工程一点。
    • 我觉得自己值得关注的地方在于看看Pretrain model作为backbone,上面放个图网络这种创新性不太高的模型,到底还能不能中AAAI了:)
  • Joint Learning of Answer Selection and Answer Summary Generation in Community Question Answering
    • 把answer selection和answer summary generation一起做,来缓解CQA中answer过长存在大量冗余的情况。
    • 数据集:WikiHow
  • Graph Transformer for Graph-to-Sequence Learning
    • 一篇做graph2seq的文章,个人兴趣所以就看了看。作者提出之前采用GAT之类的建模graph端导致长距离的node交互有限,于是提出引入Transformer这样的机制,并且在计算attention的类似引入相对距离那样引入图的边(relation)的信息。不过做的都是AMR2text这样的工作不太熟悉。。。如果放出来代码的话可以研究一下。。。
  • MMM: Multi-stage Multi-task Learning for Multi-choice Reading Comprehension
    • 感觉是目前看到的AAAI上RC相关文章中做的分析比较详尽的了。文章做的是MCRC选择题,模型是一个所谓的多步推理的memory network,但是其实这不是重点。重点是他提出分阶段fine tune一起multi-task训练的方法,第一阶段用NLI任务fine tune,作者发现这个可能是因为NLI和选择题本质上有一定的任务相似,第二阶段在RACE上和数据规模小的Target数据集上fine tune。这两种策略的组合都带来涨点。而且分析了一些有趣的结论,比如引入第一阶段的NLI可以加速模型的收敛速度之类的。感觉MCQA还的确有点搞头哦。。。
    • 数据集:MCQA的数据集:RACE,MCTest,DREAM等。
  • Co-Attention Hierarchical Network: Generating Coherent Long Distractors for Reading Comprehension
    • 文章做得是RACE这样的数据集的distractor的生成,类似于Gao et al.2019的工作。作者的改进引入了question和passage的交互co-attention以及针对RACE这样的数据集article过长的特点,引入了分层attention建模,即有一个句子级别的加权表示,在decoder的时候使用。
    • 还有个维持语义一致的loss项,是算answer和article表示的余弦距离。
    • 数据集:RACE
  • Assessing the Benchmarking Capacity of Machine Reading Comprehension Datasets
    • 一篇分析MRC数据集的文章。话说AAAI之前也看到一篇分析CoQA和QuAC特性的文章。这篇文章分析了很多MRC数据集的bias,感觉很多现象都很有意思,也值得思考MRC的后续工作。
    • 首先是question和passage的语法是否正确其实对BERT这样的model影响并不大。还有一个实验是把passage和question的word都替换成POS标签,然后发现SQuAD和CoQA这样的抽取数据集仍然分数很高,这也说明BERT其实只需要识别question和passage之间的POS pattern的匹配。而HotpotQA因为引入了distractor这样的长文本可以有效降低这种情况。而multiple choice数据集则会下降的比较多,作者认为这体现了这种数据集可能需要一定的复杂推理。而打乱word之间的顺序,也会导致效果的下降,但有的数据集下降很少:比如对于context word的打乱,ARC这样的数据集就下降很少。
    • 作者还做了一些比较极端的实验,比如去掉问题或者去掉context。对于multi choice 数据集存在context和answer之间的bias,即不需要问题也可以找出正确答案。但这种实验对extraction的数据集影响很大,不过这也是意料之中。还做了一个SWAG上只给后一句话用BERT跑,发现也能74左右,作者认为这是BERT和SAWG构建数据集来源相同的原因,这点其实在日后的pretrain系列实验中需要考虑。。。
    • 同时作者提出以后设计数据集的时候需要设计考虑without一个feature的时候人们以及model是否还能准确回答,来验证这个数据集是否存在bias,是否可以真正达到我们想要的MRC的能力。但是这也得花太多钱了吧。。。
    • 总之是篇不错的分析bias的文章啦。
  • PIQA: Reasoning about Physical Commonsense in Natural Language
    • 又是Yejin Choi组的常识QA数据集文章,physical commonsense ,不想说啥了,作者说啥就是啥吧。。。感觉怎么光出题出一堆,实验也就做了几个pretrain model的。。。
  • How to Ask Better Questions? A Large-Scale Multi-Domain Dataset for Rewriting Ill-Formed Questions
    • 提出了一个新任务,question rewriting:把ill-formed的问题转换成well-formed。作者的定义是:问题是语法正确,拼写正确,而且是明确的。
    • 感觉这个数据集挺大的,可能可以用在QG任务中?猜想。。。
  • Select, Answer and Explain: Interpretable Multi-hop Reading Comprehension over Multiple Documents
    • 终于在AAAI上看到一篇做hotpotQA的文章了,想来也是ACL和EMNLP把分数做高,trivial的model已经做的差不多了。。Model加了个过滤掉distractor的预处理(这个貌似前人也有做),然后multitask的做support sentence prediction和answer prediction任务,这里不只是简单的loss相加,而且sentence的表示会考虑到answer的logit作为attention权值的一部分。最后是一个GNN做reasoning,感觉和他们之前的工作差别不大啊。。。
    • 数据集:HotpotQA
  • QASC: A Dataset for Question Answering via Sentence Composition
    • 虽然也是数据集文章,但感觉明显比yejin choi的更有诚意。。。做的是multi-hop的选择题RC,但是需要检索出两个证据fact,并组合才可以得到最终的答案。好在两个证据fact以及组合得到的fact也都在数据集中进行了标出。
    • 从形式上来看很像openbookQA,但是openbookQA并没有显示表明需要的知识以及组合方式。而HotpotQA中的multi-hop往往更加容易分解,因而作者认为比QASC容易。
    • 不想看那么详细了。。。之后要做再说吧。。。

发表评论

电子邮件地址不会被公开。 必填项已用*标注