近期读的处于UnderReview的一些工作

因为最近ICLR和AAAI都是允许在arxiv或者openreview的平台公开自己的工作的,自己也就看了一些貌似投往这些会的paper,把读到的都记录一下,以便出结果后可以自己针对再看看是否有更新,而且openreview上还可以看到别人的评价以及和作者的交互。ICLR的文章大概就按照香侬前几天的推送看,而AAAI的就凭arxiv了。。。话说还有好几个会出了结果一篇paper没看。。进度好慢。。。

AAAI

PS:这个我只能凭版式判断了。。不一定投往AAAI。

  • Graph-Based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering
    • 看版式是投往了AAAI 2020了,采用了XLNet+GNN(从公式上来看类似于GAT的变种),在commonsense QA上得到了SOTA的结果,截止到现在貌似仍然是。和前人模型相比,他们引入了更多的额外知识(结构化的Concept Net和非结构化的Wikipedia),并根据不同的来源分别构造了两张图。并按照图的顺序做拓扑结构输入到XLNet里,并把结果用来过GNN,最后还拿GNN的表示和XLNet算个attention权重。感觉更加工程一点。
    • 我觉得自己值得关注的地方在于看看Pretrain model作为backbone,上面放个图网络这种创新性不太高的模型,到底还能不能中AAAI了:)

 

 

ICLR

  • BERT-AL: BERT for Arbitrarily Long Document Understanding

    • 唉技术报告式的论文,感觉就是个国外学生的课后作业啊。LSTM放到BERT上,和我毕设做的一样啊,也是为了解决长文本的问题,而且我还是按照自然语言分句的,比他这种强行512的感觉要自然一点啊。而且也没怎么证明multi-channel LSTM的正确性。。。真搞不懂这文章不太行,还为啥要投出来。
    • 没啥值得关注的,但主要因为组里大哥也要做类似方向,所以就看看后续进展和讨论。
  • ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

    • 同样是技术报告类似的文章,但比上一篇好太多了,毕竟谷歌出品文章,而且效果也很好。模型参数少效果惊人主要在于分解了Embedding矩阵,共享了各层参数,去掉NSP使用SOP。文章也提出了一些很有意思的结论,但是其实我想说这个模型只是减少了参数量,但在训练阶段因为维度比BERT大了其实是更容易OOM的,还是别被那些公众号带节奏了。
    • 我觉得自己需要关注的地方在于现在版本的论文还是有些细节不大清晰,而且实验设计上对照不完全,需要根据讨论更新一下自己的理解。同时自己之前觉得NSP没有用,但是并不没仔细想过为什么,而且也在iflytek待的时候知道他们用句子排序来预训练,从来没有思考过这两者的区别,而论文给出了一个可能的解释,自己也要关注。
  • Attention over Phrases

    • 文章提出对于vanilla transformer采用的是针对每个word token之间算attention,然后在加权算出每个token的相应表示,但是这样往往很难捕捉phrase的语义表示。所以文章考虑在phrase层面上也做attention,论文没有仔细看,大致思路为把所有可能的phrase也放到token序列之后,然后分两个阶段计算attention:第一个阶段还是token之间搞,第二个阶段会在phrase和phrase相应token之间计算attention(这部分公式有相应改动)。
    • 其实和cleary讨论的时候觉得思路也没啥新意,但是论文报在WMT16 en-ge上比baseline搞了14个belu有点震惊。然后看了一眼评论发现也有人在质疑实验部分做的似乎不太充分,例如baseline是不是太低了以及没有考虑更多dataset。所以感觉需要关注一下后续以及这样的不太新意的思路在ICLR上是否能中。。。
  • Geom-GCN: Geometric Graph Convolutional Networks

    • 因为看到是GCN相关的新模型,所以就大概看了看,有些数学证明没仔细看,估计看了也看不大懂。。提出了一个Geom-GCN的东西,主要针对GCN的两个问题,第一是GCN在异构图上会忽略了图的结构信息,例如无法区别相邻的不同种节点提供的信息。第二是GCN无法关注到距离较远的相关节点信息,这导致在某些特殊图网络上无法使用GCN。而Geom-GCN想像CNN一样把一些几何特征信息引入:首先为了解决图中较远的节点很难学到依赖的问题,采取了node embedding,把node映射到一个latent space。然后新定义了每个节点的邻居节点:既有图中有边的,也有latent space中距离小于某个阈值的,以及具有相同几何关系信息的节点(例如在latent space的同一个区域内)。然后每个节点在聚合信息的时候,会先low-level的把自己具有相同几何信息的节点聚合到一个虚拟节点上,然后再high-level的聚合一遍。作者认为自己这样的方法来解决异构图,是符合图的拓扑结构的。后来查了查发现文章中不但用了欧式空间还用了双曲空间,有资料说双曲空间一般会学出来分层特征信息,因而可能通过分层来解决异构?这一块也不懂了就。。。
    • 针对异构图提出的GCN模型,感觉可以关注一下做图网络的人怎么看这个东西,毕竟自己也不懂理论的东西,感觉实验也都是在结构化网络数据集做的,估计比较难在NLP上做= =。。毕竟NLP的图很难说有没有几何特征信息了。。
  • Meta Label Correction for Learning with Weak Supervision 

    • 对于弱监督所得到的大量含有噪声的数据,有一种方法是对这些有噪音的数据进行一个改错的过程。这篇文章把改错网络(meta-model)和分类器(main-model)放到meta-learning的框架下来做,据称是首次。meta-model改错得到一个分布,拿来再和main-model训练,最后在clean的dev set上调meta-model(这一步貌似有点疑问?)。
    • 主要想关注一下这样一个框架来解决weak supervision是否有效,想看看大家之后的讨论。如果这种方法真的好使,那么别的数据增强任务是否也可以和主任务放到类似的框架下,用meta-learning来做?其实论文有一些优化上的数学内容并没有看懂,假如能中的话在研究。
  • Measuring Numerical Common Sense: Is A Word Embedding Approach Effective?

    • 研究数字embedding方法到底是否可以获得人们常用的常识知识:例如通过数字反应高低胖瘦啊等。
    • 没仔细看,能中在研究。。。因为如何表示数字还是挺关键的一个问题。

 

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注