SuooL's Blog

蛰伏于盛夏 藏华于当春

Original Paper Reference:A Survey of Data Augmentation Approaches for NLP (Feng et al., Findings 2021)

尽管在NLP领域的DA需求和热度不断增加,但是这一领域具体的DA研究依旧是相对较少,其原因或许是语言本身的离散特征。

这篇论文主要是针对当前NLP领域现有的一些DA研究进行综述,首先介绍了NLP领域DA相关的概念和Motivation,其次介绍了一些背景内容,第三点介绍了相关的技术和方法,之后则综述了相关的DA具体应用及相关任务下的DA应用,最后对NLP领域的DA面临的挑战和未来方向进行阐述。

阅读全文 »

Summary

当前深度神经网络方法存在问题:Large deep neural networks are powerful, but exhibit undesirable behaviors such as memorization and sensitivity to adversarial examples

论文核心思想:Mixup trains a neural network on convex combinations of pairs of examples and their labels

阅读全文 »

Introduction

  传统的数据增强方法普遍需要专家知识来手动设计策略获取对应领域的先验知识,这导致增强方法的领域依赖性强,泛化能力不够。数据扩充的策略学习方法——自动设计扩充策略方法出现,有可能解决传统数据扩充方法的这些弱点。这种方法通过训练一个机器学习模型来学习一种数据增强策略,从而可能提高模型在半监督学习上的准确性、鲁棒性及表现。特别的,所有的这些提升不像改进网络结构的方式那样会在模型的推断阶段造成计算时间的消耗。

  原始的数据增强方法有这样的一个范式:现在一个小型数据集上定义一个代理任务进行模型训练,可以理解为子数据集的进行子任务训练,然后将模型迁移到更大规模数据的目标任务上。这种范式得到的数据增强模型确实可以提高模型任务的表现,但是它依赖于一个很强的假设,即是这代理任务的模型性能与在迁移的更大数据集上目标任务上的性能相似。

阅读全文 »

致谢

十觞亦不醉,感子故意长。

明日隔山岳,世事两茫茫。

——杜甫《赠卫八处士》

  行文至此处,三年的研究生生涯也即将结束,聚首仿在昨日,离别又在眼前,内心感慨万千。前面拙作的正文部分已经完成,力求严谨客观,这两页纸容许我些微的感性,为我的求学之路做个记录。

  三年前我在公司上班的中途接到尹华老师的电话,得知自己考上了研究生。在继续读书还是安稳工作的选择面前,短暂犹豫之后我毅然决定来学校。当时抱着应该为人生创造更多可能性的初心,怀揣着明天更美好的希望,师从尹华老师,开始了我的研究生生涯。

  来校三个月尹华老师去了美国杜克大学访问,时差十三个小时,但定期的讨论汇报没有断。至今依然清晰记得,老师在美国时间凌晨两点指导我论文写作、与我讨论实验设计的场景,最终在研一的暑假投出了我人生的第一篇学术论文。

  2019 年底老师从美国归来,一个月后新冠疫情爆发,度过了人生最长的一个假期。在疫情居家隔离期间,老师组织我们组内定期通过线上讨论会议进行学习汇报,学业和科研并未因疫情阻隔而停滞,这一年老师带领我投出了人生第一篇 SCI 文章。同时经老师牵头,我们与中山大学建立了学术交流关系,合作的第一篇论文成果也即将付梓投出。我的毕业论文从开题到一次次地修改最终定稿也都离不开老师的指导,感谢徐曦师兄在我毕业论文定题和修改过程中给出的法学专业建议。

  站在这三年的末尾,首先要感谢的人是我的导师——尹华老师,无论是在相隔大半个地球的美国,还是疫情期间居家隔离,老师的指导和关怀一直都在。从老师身上,我不仅学习到如何做学术,更学习到如何做人,感激之情无以言表。老师的教诲,学生谨记心中,老师的悉心帮助和照顾,学生没齿难忘。

  同时也要感谢蔡佳老师的指点,感谢许广龙同学的帮助,在蔡佳老师的指导下我们共同合作完成了一篇关于素描图像检索的 ESCI 文章。

  这里,我也要对组内师姐、各位师弟师妹表示感谢,与各位共同学习讨论的日子非常充实,还要特别感谢学院科研秘书陈佩冬老师及学院各位领导、老师们,感谢您们这三年来对我学习和生活上的帮助。

  当然,我也要感谢父母,自我有记忆起他们就与我聚少离多,几十年如一日的辛苦劳动,我难以想象他们经历的苦难和压力。我父亲文化水平不高,母亲完全不识字,他们虽然不能理解我所学的专业、所做的研究,但是他们自始至终唯一期盼的就是我能好好读书,最大的希冀的就是我能走出那片贫瘠的土地,在外面体面的活着。我考上大学、考上研究生的时候,他们比我还要高兴,在我成长的过程中,无论我面临何种选择,面临何种困难,他们永远都是无条件的鼓励我,支持我,尊重我。

  我的女朋友徐艺文,五年前我们在工作中认识,从我离职创业,到创业失败、考研备考,她一路陪我走来,鼓励支持我的所有选择,容忍我的各种缺点,在她眼里我永远都是那么优秀。我们这几年经历了很多人生变化,她让我一直对生活充满信心和期待,希望我们能一起走向更美好的明天。

  往者不可谏,来者犹可追,而今回首也算初心未改。求学之路即将告一段落,但新的人生之路才刚刚开始。

  行笔至此难自已。最后祝愿老师们工作顺利,祝愿同学们都能学有所成,祝愿大家都身体健康,平安喜乐!

陈(2015)(ACL 2015) 使用的是 pipeline 方法,开了使用 DNN 解决 EE 任务的先河,并提出了可以自动提取词汇级与句子级特征的动态多池化 CNN 模型以提取句子中多个特征,并加入了位置特征向量、事件类型特征向量来加强句子整体感知,取得了当时的最好成果,但是存在未能充分捕捉句子中事件触发词、论元等元素之间的依赖关系以及pipeline 方法本身存在的错误传播等问题。

Nguyen(2016) 等人首次将 RNN 模型应用到事件联合抽取任务。通过使用双向 RNN 模型避免了 pipeline 方法本身的错误传播问题,并通过使用触发词记忆向量、论元记忆矩阵等特征进一步加强了句子中各事件元素等依赖关系感知,进一步提升了事件抽取的效果。

阅读全文 »

背景

本章主要为了后续章节做背景知识的铺垫。主要回顾了之后提出的理论相关的概率论和信息论的基础。

对与机器学习也特定的回顾了将要用的部分,最后对 NLP 的主要任务进行了概览。

概率论与信息论

概率论为我们提供了讨论和分析这篇论文中提出的许多本质上是概率性的方法的通用语。

通过概率论,我们可以在已经发生了其他事件的情况下,对某个事件发生的可能性做出判断。并对可能计算。

信息论同样为我们提供了描述事件中编码的信息的工具和描述信息差异的方法。后者是一个我们使用机器学习方法时经常想要最小化的属性。

阅读全文 »

备份类别

  1. 物理备份: 直接复制数据库文件,适用于大型数据库环境。但不能恢复到异构系统中如Windows。
  2. 逻辑备份: 备份的是建表、建库、插入等操作所执行SQL语句,适用于中小型数据库,效率相对较低。
  3. 导出表: 将表导入到文本文件中。
    阅读全文 »

Introduction

文章翻译自 Machine Learning from Scratch-ish

The Problem

“I am really interested in Machine Learning, but I don’t have a background in Computer Science or Math.”

你以前可能遇到过这种情绪,而且如果你带着任何目的和意图阅读这篇文章,那么很有可能你经常遇到这种情绪。而且,事实上,我猜你个人经历过这种情绪的可能性比一般人要大。

我当然有,因为这就是本文的起源和基础。有很长一段时间,我真的感到沮丧到发狂的程度,因为我真诚地相信,像我这样的教育背景和经验的人很可能无法理解或使用机器学习技术。

阅读全文 »