考虑到数据非常少的新任务,例如分类问题中的新类或输入域的转移,现代视觉系统的性能会显着快速下降。在这项工作中,我们说明了支撑现代视觉系统的神经网络表示如何受到监督崩溃的影响,从而丢失执行训练任务不需要的任何信息,包括转移到新任务或领域可能需要的信息。然后我们提出两种方法来缓解这个问题 ...
最近,单词增强在中文命名实体识别(NER)中变得非常流行,它可以减少分割错误并增加中文单词的语义和边界信息。然而,这些方法在整合词汇信息后往往忽略了汉字结构的信息。汉字自古以来都是由象形文字演变而来,其结构往往反映了更多的文字信息 ...
在这项工作中,我们提出了一种新颖的实体超图来表示对许多实际数据集中普遍存在的重叠实体驱动进行建模。我们证明,建立在这种新表示的上部模型能够捕获之前的模型无法捕获特征和事件,保持较低的推理时间复杂度。我们还提出了理论分析,以正式评估我们在表征能力方面的表征如何同时引起文献中报告的替代表征... ...
安全可靠地披露机密数据中的信息是一个具有挑战性的统计问题。一种常见的方法是考虑生成合成数据,而不是原始数据来公开。有效的方法应该处理所发布数据的可靠性和保密性之间的权衡 ...
我们提出了一种新的标记句子数据增强方法,称为上下文增强。我们假设一个不变性,即使句子中的单词被替换为具有范式关系的其他单词,句子也是自然的。我们随机地将单词替换为双向语言模型在单词位置预测的其他单词 ...
当前命名实体识别(NER)方面的工作表明,数据增强技术可以生成更稳健的模型。然而,大多数现有技术侧重于在注释数据非常有限的资源匮乏场景中增强域内数据。相比之下,我们研究 NER 任务的跨域数据增强 ...
数据增强是解决资源匮乏场景下数据稀缺的有效解决方案。然而,当应用于 NER 等 token 级任务时,数据增强方法经常会遇到 token-标签未对齐的问题,从而导致性能不理想。在这项工作中,我们提出掩码实体语言建模(MELM)作为低资源 NER 的新型数据增强框架 ...
命名实体识别是自然语言处理中的一项传统任务。特别是,嵌套实体识别由于嵌套场景的广泛存在而受到广泛关注。最新的研究迁移了对象检测中成熟的集合预测范式来应对实体嵌套 ...
识别有用的命名实体在医学信息处理中起着至关重要的作用,有助于推动医学领域研究的发展。深度学习方法在医学命名实体识别(NER)方面取得了良好的效果。然而,我们发现现有的方法在处理嵌套命名实体时面临着巨大的挑战 ...
在许多场景中,命名实体识别(NER)模型严重遭受未标记实体问题,即句子的实体可能没有被完全注释。通过对合成数据集进行实证研究,我们发现了性能下降的两个原因。一是减少带注释的实体,二是将未标记的实体视为负实例 ...