迁移学习在 NLP 的应用（一）

Introduction

Motivation

在处理自然语言处理领域相关问题时（1960s-1970s），早期符号学方法主要使用人工编写的规则来获取处理特征。

在过去的20年里，一种使用数学模型自动从数据中学习规则的统计学方法渐渐成为了主流。人们从直接编写规则转向创造特征，这种特征能告诉模型为了预测正确应该要考虑的数据中的特定关系和连接。这项工作被称为特征工程，然而，这依然是一项非常耗时的工作，因为相关的特征一般都是任务特定且需要领域专业知识的。

在过去的5年中，机器学习中的一类特定模型——深度神经网络（DNN）成为了从数据中进行学习的一种模型选择。这些模型能够自动的学习到多层次的特征从而降低特征工程的需要。人们转为专注于为每个特定的任务选择最合适的模型架构和设置训练参数。

自然语言处理任务同其它很多机器学习领域一样，训练一个模型的标准路径是首先标注大量的训练样例提供给模型，使其学习到一个能够从输入映射到输出的期望的函数，这也被称为监督学习。对于每项任务，例如分析文本的句法结构，消除歧义或翻译文档，都会从头开始训练新模型。
来自相关任务或领域的知识永远不会被合并进来，并且模型总是从白板一样的随机初始化开始。

这种从空白状态中学习的方式与人类获取语言的方式相反。人类语言学习不是孤立地进行，而是在丰富的感官环境中进行。孩子们通过与周围环境的互动以及不断的反馈和强化来学习语言。

虽然如此，最近几年的一些基于深度神经网络的方法通过从海量的标注数据中学习训练，在很多任务上都取得了显著的成功，比如机器翻译。由于这些成果的产生，人们可能会觉得没有必要从监督学习的范式中脱离，也没有必要按照人类学习语言方式的来创造新的算法出来。毕竟，大自然是我们的灵感之源，而不是蓝图。例如，人工神经网络只是受到人类认知的启发。

然而，近期的一些研究却表明如今的算法像早期基于规则的系统一样脆弱：他们不能从训练数据中实现泛化和超越训练数据，仅仅是与训练数据中的特征保持一致，因此当条件变化时，他们无法适应变化。

人类的需求是复杂的，语言本身也是多样的，自然语言处理领域也一直不断的涌现出各种新的任务需要去解决。同时自然语言处理也有望帮助弥合导致了在线信息和机会不均等的语言鸿沟。也就是说，模型不仅仅要适用于英语，也要应用于世界上其他6000多种语言。

为了获得对以前从未见过的数据（无论是来自新任务，领域还是语言）的性能良好的模型，监督学习需要为每个新设置标注足够数量的示例。而鉴于现实世界中如此多的语言、任务及应用领域，为每一个都人工标注足够的样例显然是不现实的。标准监督学习在面对这些现实世界挑战的时候失败了。

迁移学习有望通过将知识从相关领域，任务和语言转移到目标领域来改变监督学习的失败。而迁移学习长期以来确实是许多 NLP 系统的潜在组成部分。像潜在语义分析、预训练词嵌入、预训练语言模型等许多 NLP 的基础进展都可以被认为是迁移学习的特定形式，作为一个把知识从通用领域迁移到特定目标领域的方法。

在本论文中，我们认为将 NLP 模型的训练框架定为迁移学习而不是监督学习可以帮助释放新的潜力，从而使我们的模型具有更好的泛化能力。为此，我们开发了新颖的模型，这些模型可以在各种情况下进行领域、任务和语言间的迁移。证明了我们提出的模型优于现有的迁移学习方法以及不使用迁移的模型。

研究目标

研究自动学习基于神经网络的自然语言处理方法在不同的任务间、领域间及语言间迁移的表示的问题。研究的主要假设为：

通过从相关的领域、任务和语言中利用已有的知识信息可以使得深度神经网络在 NLP 普遍问题中的表现比没有使用这些信息的要更好。

换句话说，即是我们认为在大多数情况下，迁移学习要比监督学习的表现更好，其中有两点前提：

如果已经有足够的训练样例的情况下，迁移学习或许并不比监督学习好。
如果没有相关的信息可以利用，迁移学习或许也并不有效。

为了说明第一点，我们分析了迁移学习的少样本学习能力，第二点正是我们的主题所在，迁移学习的成功依赖于源领域和目标领域的相似性。

我们列出了五个亟待解决的问题，这些问题将通过本文提出的模型方法来解决。

克服源域和目标域的差异问题。现存的很多迁移学习方法只有在源域和目标域存在足够相似性的时候表现的非常好。为了解决这个挑战，我们提出了能够自动选择相关样例、使用弱监督学习、灵活的跨任务共享参数、学习一个更通用的表示以及分析任务间相似性的一系列模型方法。
产生一个归纳偏置。该模型应归纳出一个能够提高它泛化能力的归纳偏差。为了选择到这样一个归纳偏置，我们应用了半监督学习、多任务学习、正交约束条件、弱监督学习、先验匹配、层次关系以及预训练表示等。
结合传统和现代方法。模型应该从经典方法中获取启发来打破现有最佳方法的限制。我们提出了两个模型，明确的结合了这两者（传统方法和神经网络方法）最好的地方。
在不同层次的 NLP 任务间迁移。这包括上下游的任务间共享，粗粒度情感和细粒度间情感的共享以及从通用性任务到不同具体类型任务到迁移。
能够在不同的设置环境下泛化。模型应该能够具有泛化到不同设置的能力，为了证实这个，我们将每一个方法都在足够范围的不同任务、领域和语言间进行测试。

Contributions

主要专注于 NLP 中三个纬度的迁移学习研究：跨领域的迁移、跨任务迁移、跨语言迁移。这三个维度根据源域（源任务）与目标域（目标任务）的不同设置自然的分为四种不同的迁移学习：领域迁移、跨语言学习、多任务学习、序列迁移学习。

理论上的贡献如下：

提出了能够反映迁移学习在 NLP 中普遍适用的分类。
我们证明了在词水平上学习的跨语言词嵌入模型优化了相似的目标。
分析了无监督跨语言嵌入模型的理论局限性
我们展示了如何将现有的跨语言嵌入方法视为一个潜在变量模型
我们提出了一个理论框架，将现有的体系结构推广到多任务学习

实践上的贡献如下：

我们对自然语言处理中最常见的四种迁移学习进行了广泛的回顾:多任务学习、序列迁移学习、领域自适应、跨语言学习。
我们提出了一种新的基于特征向量的度量方法来衡量两种语言之间的无监督双语词典归纳的潜力
我们为预训练表征的迁移适应提供指导规则

实证经验上的贡献如下：

我们提出了一个模型，该模型自动学习选择与特定目标领域相关的训练实例
将半监督学习方法同神经网络结合并与最新的方法做对比
从 tri-training 启发提出了一种更有效的半监督学习方法
实证分析了无监督跨语言词嵌入的局限性
提出了一种新的多任务学习模型，该模型能够自动学习在不同任务之间应该共享参数层
我们提出了一种新的多任务学习模型，它集成了来自不同标签空间的信息
我们使用预先训练的语言模型和新的微调技术提出了一个列迁移学习的新框架
我们针对不同任务将这两种流行的迁移适应方法与的最先进的预训练表征进行比较

大纲

相关背景知识概述。
迁移学习的概念定义及 NLP 中迁移学习的四种迁移学习场景。
针对四种场景的提出的不同的模型和方法。