type
status
date
slug
summary
tags
category
icon
password
只是引用这篇文章,在这里记录下他的结论。

原文摘要翻译

命名实体识别(NER)是一项机器学习任务,传统上依赖于监督的学习和注释数据。获取此类数据通常是一个挑战,尤其是在医疗,法律和金融领域等专业领域。这些通常称为低资源域,该域构成了长尾实体(long-tail entities),这是由于可用的数据稀缺。为了解决这个问题,越来越多地采用了数据增强技术来从原始数据集生成其他培训实例。在这项研究中,我们在两个广泛使用的NER模型(BI-LSTM+CRF和BERT)上评估了两种突出的文本增强技术,提到替换(Mention Replacement)和上下文词更换(Contextual Word Replacement)的有效性。我们对来自低资源域的四个数据集进行了实验,并探讨了训练子集大小和增强示例数量的各种组合的影响。我们不仅确认数据增强对较小的数据集特别有益,而且还证明没有普遍数量的增强示例数量,即,NER从业人员必须尝试不同的数量才能对其项目进行微调。

结论

作者对当今的数据划分为两类,一类是“Generic Domain”,是一些很充足的,已被充分学习的数据,而另一类是 “Low-resource Domain”,这些数据通常是一些专业领域,具备隐私性,其标签需要业内专家标注,被称为长尾实体(Long-tail entities)。鉴于注释数据在NER模型的开发,训练和测试中的关键作用,对在稀缺或难以生成的情况下,对建立NER模型的方法的兴趣越来越大,就像这些低资源域的情况。
其中一个方法就是数据增强。这篇文章进行了详细的实验(基于两个广泛应用的NER架构模型BERT和Bi-LSTM+CRF,对数据集采用 Mention Replace 和 Contextual Word Replacement 这两个种数据增强技术,对比各个数据增强强度下的数据集训练出的模型在下游任务的表现)。作者发现数据增强对于小规模数据集训练出的模型性能有显著提升效果;但是当数据集大到一定程度过后,数据增强技术反而会使模型性能下降。
 
【ML】Conda【ML】队列数据 Cohort Data
Loading...