【译文】自然语言处理趋势：ACL 2019 综述

Introduction

文章翻译自 Trends in Natural Language Processing: ACL 2019 In Review

未全文翻译，仅摘录翻译部分内容。

为强调趋势发展，会引用部分会议论文，然而这是不完全的，建议看下full conference proceedings 发现更多出色的论文。

Reducing Bias in NLP

提到了当今 NLP 领域存在的一些问题，以及为了解决这些问题所采取的措施和行动，不详细翻译了。

NLP Applications Galore

当今 NLP 领域的研究状态令人激动，因为其模型和工具能解决很多实际问题，并举了一些例子：

在假新闻领域，验证陈述的真实性的问题，Shengli Hu 建立了一个利用声音和语言特征来识别文本和语音中隐藏信息的系统。
在健康领域，Shardlow et. al. 开发了一个神经模型，通过特定领域的短语表，使医生写的临床信函对患者更具可读性。相关的，Du et. al 提出了从临床对话中提取症状的任务，并提出了基线模型，作为减少初级保健医生在与临床文献系统交互上花费的时间的手段。

同时，今年的 ACL 还举办了一个专门讨论 NLP 应用于生物学问题的完整的研讨会例如：

Fauqueur et. al. 提出了从生物医学文献中提取新事实的技术，无需训练数据或手工制作的规则。
Rajagopal and Vyas et. al. 将予以角色标注应用到生物过程

同时，还有 Zhang et. al. 提出了邮件主题行生成问题的的任务，并根据自动和人工评估，展示了针对此问题的一个可信的模型。

Pretrain then Finetune: A New Paradigm for NLP

2015 - 2017 年，NLP 领域的大多数任务都能通过一个简单直接的公式来解决，那就是embed textual input via some sort of continuous vector representations, encode these representations, attend to your encoded representations, and then predict for your task，简单来说就是四个词语：embed, encode, attend, predict ，post by Matthew Honnibal非常漂亮的总结了这一范式。

但是，现在这一范式并不行得通了，因为在 NLP 的地界上出现了一个新大哥——预训练语言模型， such as ELMO, OpenAI GPT, and BERT。这使得 NLP 任务处理出现了一个新的范式——在海量的数据上进行预训练得到一个现成的模型，然后在特定的任务上结合一些小的领域内数据微调这个模型。

Dai and Yang et. al. 寻求将 transformer-based language super-models 推的更进一步，提高他们的速度同时取得了令人难以置信的成绩。另一个此范式的代表性工作是 Liu and He et. al. 的，他们利用了一个基于 Bert 的架构称霸了 GLUE 数据集。

但是这里存在的一个问题就是：这种新范式是否淡化了自然语言处理中的许多建模创新？

作者的回答是 NO。而且，当前 NLP 领域内还有非常多需要探索的领域，这些工作对于推动 NLP 下一步的发展进程至关重要。以下列举了一些：

Infusing Knowledge into NLP Architectures

当今的预训练语言模型出色的能力可能是源于其巨大的训练语料库，我们能否通过为 NLP 架构注入知识信息来超越这一点呢？

Zhang et. al. 使用类型化实体嵌入和对齐到底层知识图来增强BERT表示，表明他们的模型在实体类型和关系分类方面可以胜过BERT。

Yang et. al 还通过提出KT-NET来解决这个问题，KT-NET使用注意机制融合来自知识库（如WordNet和NELL）的选定信息

Logan et. al.提出了知识图语言模型，这是一种生成体系结构，可以从与基础上下文相关的知识图中有选择地复制事实，优于强基线语言模型。

知识融合进入神经模型的确是一个非常困难的问题，其结果显示看起来也非常有前景！

Interpretability of Models

模型的可解释性对于未来体系架构的发展非常重要。

Serrano et. al. 的工作优雅的挑战了人们普遍认为注意力机制表示模型的重要性概念。表明，尽管有时这是正确的，但在某些情况下，替代的排名指标可能更有效地指示模型决策过程。

Jawahar et. al. 通过对 Bert学习的语言结构的探究，证明了BERT的层学习丰富的语言信息，如底层的表层特征、中间的句法特征和顶层的语义特征。并建议更深层次的层对于学习长依赖信息是必要的。

Gehrmann et. al 开发了一种工具，通过可视化预测单词标记的模型密度来检测神经生成的假文本，使人类用户的检测率提高近20％

Sydorova et. al. 调查了一些事后解释方法，如问答系统上的LIME，证明某些技术可以帮助人类从几个选项中识别出优秀的QA模型。

Rethinking Evaluation and Assumptions of Natural Language Generation

一些评估方法存在问题。

首先，Maxime Peyrard 证明，在评估某些评分范围内的表现时，某些摘要自动评估指标不一致。Clark et. al. 提出了一个更合适的新的评价指标。

文本生成的模型会出现事实错误和虚假陈述。Falke et. al. 探究了如何解决这一问题。

Sankar et. al. 对于当前的一些对话系统提出了质疑。

Going Beyond the Pretrain-Finetune Paradigm

由于我们一直使用基准测试来衡量模型的任务进展情况，而这些模型当中的许多在这些现有的NLP基准测试上接近或超过了人类的性能，这就导致我们陷入一个有点麻烦的情况中，那就是之后会我们该怎么办呢?

这是 Zellers et. al. 提出的问题，在他们早期的工作中引入了一个自然语言常识推理问题的挑战数据集，但是发布后不久就发现 Bert 已经在其上训练的接近人类表现极限。为了解决这个问题，作者提出了一个后续的数据集，该数据集是使用称为对抗性过滤的技术开发的，用于选择 BERT 和其他模型难以回答的示例。在此过程中，他们大大增加了基准测试数据集的复杂性。

伯特当然不是完美的。Nangia et. al. 的一项研究表明，基于 Bert 的模型很难处理少资源的句子分类任务，并提出了一种后续的自然语言理解基准测试，称为SuperGLUE，专门用于评估这种情况。

[McCoy et. al.](https://arxiv.org/pdf/1902.01007.pdf 等人的另一项工作证明了应用于自然语言推理的 Bert 模型在学习非常简单的启发式语法，这些方法不能很好地推广到其他蕴涵例子。他们还发布了一个评估集来确定模型是否采用了这些方法，但没有解决更一般的推理问题。

Min and Wallace et. al. 相关论文表明，针对多跳问答 HotpotQA 基准测试数据集提出的许多模型实际上并不需要执行多跳推理就能获得良好的性能。

总而言之，作者个人感觉，当今的大部分模型目的仍在解决数据集而不在于解决任务本身。我们正在构建模型的在收集和利用数据集特定的偏差方面变得惊人地有效。在这个过程中，我们的评估指标描绘了相当误导的画面。这让我想起 Goodhart’s law : 当一个指标成为目标时，它就不再是一个好的指标。那么我们如何前进呢？

鉴于评估基准测试是自然语言任务的代理以及模型的快速发展，在这种情况下假设基准测试保持静态不变是不合理的。相反，

我发现开发一套难度会不断进化变大的基准测试，每个基准都进一步推动自然语言能力的目标是更有前景的。也许在极限范围内，这就是我们如何在机器中实现人类级别的自然语言处理能力的方法。

Final Thoughts

还有很多开放性问题和突出的挑战等着你们～