ICLR 2020扫读

ICLR 2020

  • Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering

    • 利用Wikipedia构建paragraph上的图,然后用循环机制来学一个检索器,检索出相关文档。组会讲了就不写了。
    • 数据集:Hotpot QA
  • Reducing Transformer Depth on Demand with Structured Dropout

    • Reading group讲的,做Transformer结构剪枝。
  • Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

    • 预训练阶段结合实体知识。类似于mask的方式,把之前mask tokens改成了mask相同 entity type的实体,然后预测是否是发生了替换。需要注意的是一个sentence里面的实体都认为独立的,所以如果出现多次的话,并不会同时mask掉。
    • 初始化用的BERT参数,而且在训练的时候也用MLM作为loss(多任务训练)。总体上来看比在需要实体知识的数据集和任务上表现比传统LM好,同时它主要针对的是自然语言中的知识获取。
    • 数据集:WebQuestions,TriviaQA,Quasar-T,SearchQA
  • ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

    • 同样是技术报告类似的文章,但比上一篇好太多了,毕竟谷歌出品文章,而且效果也很好。模型参数少效果惊人主要在于分解了Embedding矩阵,共享了各层参数,去掉NSP使用SOP。文章也提出了一些很有意思的结论,但是其实我想说这个模型只是减少了参数量,但在训练阶段因为维度比BERT大了其实是更容易OOM的,还是别被那些公众号带节奏了。
    • 我觉得自己需要关注的地方在于现在版本的论文还是有些细节不大清晰,而且实验设计上对照不完全,需要根据讨论更新一下自己的理解。同时自己之前觉得NSP没有用,但是并不没仔细想过为什么,而且也在iflytek待的时候知道他们用句子排序来预训练,从来没有思考过这两者的区别,而论文给出了一个可能的解释,自己也要关注。
  • Data-dependent Gaussian Prior Objective for Language Generation

    • 一篇很有意思的文章,重点还是解决生成任务在训练过程中的一些问题,文章focus在训练的时候negative word在MLE的训练形式下是等价的来看待,忽视了diversity,因为negative example本身也是有一个相似到完全不相似的空间的。
    • 所以作者提出了一个基于训练数据本身的先验概率(高斯分布),具体是按照排序embedding距离 topk的word的得到这个分布。然后在loss的时候引入这个生成的word的概率和先验概率下的KL散度。
    • NMT,摘要,image caption,故事生成上都有很好的表现。。
  • Neural Symbolic Reader: Scalable Integration of Distributed and Symbolic Representations for Reading Comprehension

    • 作者关注之前基于BERT的模型做DROP这样需要离散推理的model往往都是会在上层设计一些特定的结构,导致不同domain能采用的离散操作不同导致不能统一起来,而且很难做组合的离散推理这样的操作。
    • 这篇文章其实相当于把传统RC的answer span selection和semantic parsing结合起来,用reader来学表示,然后在上层加一个programmer(LSTM)来生成DSL(离散推理相关的操作语言),这样也方便数学离散推理的组合,而且更加具有解释性。训练为了扩充数据用了数据增广,也用了hard em来解决可能多个语义不一致的programmer产生相同的结果造成不好的效果,同时也有超参进行过滤。。还是很有意思的文章。。。
    • 数据集:DROP,MathQA
  • A Mutual Information Maximization Perspective of Language Representation Learning

    • 很有意思的文章,而且和自己目前做的事情也高度相关。把BERT,XLNet以及skip gram都放到最大互信息的角度下进行讨论,并发现其实他们都是可以被放到infonce这个框架下的。其实个人认为最大互信息现阶段就是用负采样变成BCE loss的技巧。作者设计了一个类似span bert的model,但是好像softmax词表是负采样而不是整体词表,最大化一个句子的global representation和其中一个ngram的local representation(span)之间的互信息。所以更容易训练,也带来了一点提升。不过这篇文章更多的是探讨角度而不是做效果吧。
    • 文章最后也探讨了一些可能的引入最大互信息的意义,比如正则啊,不同角度组合input之类的。
  • Reinforcement Learning Based Graph-to-Sequence Model for Natural Question Generation

    • 利用answer和passage对齐表示来建模答案和篇章之间的交互,使用双向ggnn来建模结构化信息做graph2seq,同时还使用了强化学习,不过reward都是生成方面的,而和QA没啥关系。
  • Mogrifier LSTM

    • 神奇,不太懂,后面的实验部分没咋看….主体思想就是在LSTM中input和上一个step的隐层表示只在门控里进行了交互,于是作者觉得应该进行更为丰富的交互形式,然后改动也比较简单,获得基于上文的输入表示或者对上文起到根据当前input过滤掉不相关的上文。
  • BERTScore: Evaluating Text Generation with BERT

    • 用BERT来评价文本生成的质量。具体来说就是把predict和reference的两个句子分别过BERT后,两个句子的token两两之间都会算一个余弦距离,然后分别选择最相关的token(P和R有所不同,一个针对ref一个针对pred)。当然还有一些IDF进行加权以及放缩的操作。
    • 这篇文章有个问题就是针对不同任务可能得用不同配置的BERT,这个对于评价指标来说有点麻烦了。。。
  • Generalization through Memorization: Nearest Neighbor Language Models

    • 6 6 3的一篇文章,最后录成poster了。介绍了一个knn-LM,在预测下一个token的时候,在embedding空间内使用knn找寻最近的一些token,并和LM的结果相结合。Datastore可以是训练集上所有的(context, word)对,使用同一个LM把它们的context变成一致的embedding空间,然后形成key-value对。注意的是knn只在inference阶段用。作者在储存上也有了一些优秀的聚类方法,使用的是L2进行knn。
    • 作者使用的knn一方面可以使用更多的训练的时候没有使用的数据,同时还可以避免长尾的问题。作者做了一个很有意思的实验,就是在大规模的一个数据集上训练得到的ppl不如在一个小规模数据集上训练然后用大规模语料当DataSource的结果。同时这种knn的方法还可以做domain adaptation。而且作者尝试让这些知识隐式的存储在模型参数中(dropout=0)发现这样即使loss=0,很好的拟合了训练集,但是在test的集合上还是不如knn-LM,knn-LM也只用了训练集,所以可能显示存储更好更具有泛化性。
    • 但是knn本质上是instance-learning,虽说knn-LM在LM上效果很好,但是目前无法直接应用在pretrain-model中,感觉可以思考一下。。。而且我觉得这么做是不是有点ensemble的感觉?不过看了一下openreview的讨论,发现作者也做了ensemble的试验了,效果不如knn。有人说这可能是因为nn model熵要比knn低,也缺失了不确定性的泛化性质。
  • Mirror-Generative Neural Machine Translation

    • 文章从train和inference阶段认为之前的back translation的相关工作还是对于单语利用不够高。比如两个翻译模型之间还是独立的,本身并没有办法直接通过优化一个model改善另一个。

发表评论

电子邮件地址不会被公开。 必填项已用*标注