特色文章

近期读的处于UnderReview的一些工作

因为最近ICLR和AAAI都是允许在arxiv或者openreview的平台公开自己的工作的,自己也就看了一些貌似投往这些会的paper,把读到的都记录一下,以便出结果后可以自己针对再看看是否有更新,而且openreview上还可以看到别人的评价以及和作者的交互。ICLR的文章大概就按照香侬前几天的推送看,而AAAI的就凭arxiv了。。。话说还有好几个会出了结果一篇paper没看。。进度好慢。。。

继续阅读

ICLR 2020扫读

ICLR 2020

  • Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering

    • 利用Wikipedia构建paragraph上的图,然后用循环机制来学一个检索器,检索出相关文档。组会讲了就不写了。
    • 数据集:Hotpot QA
  • Reducing Transformer Depth on Demand with Structured Dropout

    • Reading group讲的,做Transformer结构剪枝。
  • Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

    • 预训练阶段结合实体知识。类似于mask的方式,把之前mask tokens改成了mask相同 entity type的实体,然后预测是否是发生了替换。需要注意的是一个sentence里面的实体都认为独立的,所以如果出现多次的话,并不会同时mask掉。
    • 初始化用的BERT参数,而且在训练的时候也用MLM作为loss(多任务训练)。总体上来看比在需要实体知识的数据集和任务上表现比传统LM好,同时它主要针对的是自然语言中的知识获取。
    • 数据集:WebQuestions,TriviaQA,Quasar-T,SearchQA
  • ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

    • 同样是技术报告类似的文章,但比上一篇好太多了,毕竟谷歌出品文章,而且效果也很好。模型参数少效果惊人主要在于分解了Embedding矩阵,共享了各层参数,去掉NSP使用SOP。文章也提出了一些很有意思的结论,但是其实我想说这个模型只是减少了参数量,但在训练阶段因为维度比BERT大了其实是更容易OOM的,还是别被那些公众号带节奏了。
    • 我觉得自己需要关注的地方在于现在版本的论文还是有些细节不大清晰,而且实验设计上对照不完全,需要根据讨论更新一下自己的理解。同时自己之前觉得NSP没有用,但是并不没仔细想过为什么,而且也在iflytek待的时候知道他们用句子排序来预训练,从来没有思考过这两者的区别,而论文给出了一个可能的解释,自己也要关注。
  • Data-dependent Gaussian Prior Objective for Language Generation

    • 一篇很有意思的文章,重点还是解决生成任务在训练过程中的一些问题,文章focus在训练的时候negative word在MLE的训练形式下是等价的来看待,忽视了diversity,因为negative example本身也是有一个相似到完全不相似的空间的。
    • 所以作者提出了一个基于训练数据本身的先验概率(高斯分布),具体是按照排序embedding距离 topk的word的得到这个分布。然后在loss的时候引入这个生成的word的概率和先验概率下的KL散度。
    • NMT,摘要,image caption,故事生成上都有很好的表现。。
  • Neural Symbolic Reader: Scalable Integration of Distributed and Symbolic Representations for Reading Comprehension

    • 作者关注之前基于BERT的模型做DROP这样需要离散推理的model往往都是会在上层设计一些特定的结构,导致不同domain能采用的离散操作不同导致不能统一起来,而且很难做组合的离散推理这样的操作。
    • 这篇文章其实相当于把传统RC的answer span selection和semantic parsing结合起来,用reader来学表示,然后在上层加一个programmer(LSTM)来生成DSL(离散推理相关的操作语言),这样也方便数学离散推理的组合,而且更加具有解释性。训练为了扩充数据用了数据增广,也用了hard em来解决可能多个语义不一致的programmer产生相同的结果造成不好的效果,同时也有超参进行过滤。。还是很有意思的文章。。。
    • 数据集:DROP,MathQA
  • A Mutual Information Maximization Perspective of Language Representation Learning

    • 很有意思的文章,而且和自己目前做的事情也高度相关。把BERT,XLNet以及skip gram都放到最大互信息的角度下进行讨论,并发现其实他们都是可以被放到infonce这个框架下的。其实个人认为最大互信息现阶段就是用负采样变成BCE loss的技巧。作者设计了一个类似span bert的model,但是好像softmax词表是负采样而不是整体词表,最大化一个句子的global representation和其中一个ngram的local representation(span)之间的互信息。所以更容易训练,也带来了一点提升。不过这篇文章更多的是探讨角度而不是做效果吧。
    • 文章最后也探讨了一些可能的引入最大互信息的意义,比如正则啊,不同角度组合input之类的。

AAAI 2020 RC&QA扫读

未放出的工作:

  • Multi-Task Learning with Generative Adversarial Training for Multi-Passage Machine Reading Comprehension
  • Attentive User-Engaged Adversarial Neural Network for Community Question Answering
  • Generating Well-formed Answers by Machine Reading with Stochastic Selector Networks
  • To Avoid the Pitfall of Missing Labels in Feature Selection: A Generative Model Gives the Answer
  • A Robust Adversarial Training Approach to Machine Reading Comprehension
  • Knowledge and Cross-Pair Pattern Guided Semantic Matching for Question Answering
  • Neural Question Generation with Answer Pivot
  • Translucent Answer Predictions in Multi-Hop Reading Comprehension

继续阅读