随着大语言模型(LLM)的快速发展,已经进行了广泛的研究来研究LLM的代码生成能力。但是,现有的努力主要集中在通用域任务上,而LLMS在现实世界应用程序域中的代码生成性能尚未被置于范围内。这提出了一个关键的问题:模型的通用域编码能力可以可靠地代表其在专业领域中的能力吗?在本文中,我们介绍了DomainCodeBench,这是一种多域代码生成基准测试,旨在系统地评估12个软件应用程序域和15种编程语言的LLM ...
大型语言模型(LLMS)表现出非常出色的能力,可以对各种用户查询产生流利的响应。但是,这也引起了人们对新闻,教育和学术界此类文本的潜在滥用的担忧。在这项研究中,我们努力创建可以检测机器生成的文本并确定潜在滥用的自动化系统 ...
已知许多文本分类任务是高度依赖域的。不幸的是,培训数据的可用性在范围内可能会大不相同。更糟糕的是,对于某些域而言,可能根本没有任何带注释的数据 ...
在本文中,我们专注于无监督的机器阅读理解域(MRC),其中源域具有大量的标记数据,而目标域中仅可用无标记的段落。为此,我们提出了一个对抗性域适应框架(ADAMRC),其中($ i $)伪问题首先是针对目标域中未标记的段落生成的,然后($ ii $)将域分类器纳入MRC模型,以预测哪个域是一个给定的通道Questage-Quemestage-Quemestage-Quemestage-Quemestage-Questage-Questage-Questage-Questage-everage。分类器和段落问题编码器是使用对抗性学习共同训练的,以实施域名不变的表示 ...
元学习已成为一种趋势技术,可以解决一些播放文本分类并实现最先进的表现。但是,现有解决方案在很大程度上依赖于词汇特征及其分布签名对培训数据的开发,同时忽略了该模型适应新任务的能力。在本文中,我们提出了一个新颖的元学习框架,该框架与对抗性域自适应网络集成在一起,旨在提高模型的自适应能力并为新类生成高质量的文本嵌入 ...
网络安全领域正在迅速发展。需要了解过去,当前和 - 在最好的情况下 - 即将到来的威胁,因为攻击变得越来越高,目标更大,系统更加复杂。由于无法手动解决此问题,因此网络安全专家需要依靠机器学习技术 ...
近年来,在英语的情感分类中取得了巨大的成功,部分原因是可用的大量注释资源。不幸的是,大多数语言都不享受如此丰富的标记数据。为了解决低资源语言的情感分类问题,没有足够的注释数据,我们提出了一个对抗性深度平均网络(ADAN),以将知识从有关资源丰富的源语言的标记数据传输到仅存在的无标记数据的低资源语言 ...
无监督的域适应性最近已成为将深层神经网络推广到新目标域的有效范式。但是,仍然有巨大的潜力来达到充分的监督性能。在本文中,我们提出了一种新颖的主动学习策略,以帮助目标域中的知识转移,称为活动领域的适应性 ...
在目标域上学习算法的域自适应性能是其源域误差的函数和这两个域的数据分布之间的差异度量。我们在NLP任务的背景下介绍了各种基于距离的度量的研究,该研究表征了基于样本估计的域之间的差异。我们首先进行分析实验,以表明这些距离测量中的哪些可以最好地将样品与同一域与不同领域区分开,并且与经验结果相关 ...
将知识从标记的源域中学到的知识转移到无监督域适应(UDA)的原始目标域(UDA)对于自动驾驶系统的可扩展部署至关重要。 UDA中的最新方法通常采用一个关键思想:利用来自源和目标域的联合监督信号进行自我训练。在这项工作中,我们改善并扩展了这一方面 ...