本文介绍了Longbench V2,这是一种基准测试,旨在评估LLM的能力处理长篇小说问题,需要在现实世界中进行深入理解和推理。 Longbench V2由503个挑战性的多项选择问题组成,上下文范围从8K到2M单词,跨越了六个主要任务类别:单案QA,多文档质量质量质量检查,长期内在的内在学习,长期元素历史记录理解,代码reposority Reposority,代码恢复性的理解以及长期结构化的数 ...
在线社会系统面临的主要挑战之一是反社会行为的普遍性,例如骚扰和人身攻击。在这项工作中,我们介绍了从对话开始时预测是否会失控的任务。与发现事实后发现不良行为相比,此任务旨在在可能仍能挽救对话的时候实现早期,可行的预测 ...
深度学习方法已经显着提出了各种数据驱动的任务,例如回归,分类和预测。但是,这种进步的大部分是基于强烈但通常不切实际的假设,即训练数据集相对于它们所包含的目标是平衡的。这种与现实情况的未对准,在现实世界中,数据经常失衡,这阻碍了此类模型在实际应用中的有效性 ...
现实世界中的数据通常显示出不平衡的分布,其中某些目标值的观察值大大较少。现有用于处理不平衡数据的技术集中在具有分类指数的目标上,即 ...
记忆在机器学习(ML)中的作用引起了极大的关注,尤其是在经验观察到现代模型以记住训练数据的片段时。以前的理论分析,例如费尔德曼的开创性工作,将记忆归因于训练数据中长尾分布的普遍性,这证明了在分布尾部的样本中不可避免的。但是,记忆和值得信赖的ML研究的交集揭示了关键的差距 ...
长尾数据是一种特殊的多类失衡数据,具有大量的少数族裔/尾巴,具有非常明显的综合影响。长尾学习旨在在具有长尾分布的数据集上建立高性能模型,这些模型可以以高准确性识别所有类,尤其是少数族裔/尾巴类。这是一个尖端的研究方向,在过去几年中吸引了大量的研究工作 ...
广义零射击学习(GZSL)旨在识别具有辅助语义信息(例如类别属性)的新类别 ...
工业异常检测 (AD) 的最新进展表明,在训练期间合并一些异常样本可以显着提高准确性。然而,这种性能改进的代价很高:大量的注释工作,这在现实应用程序中通常是不切实际的。在这项工作中,我们提出了一种名为“弱监督RESidual Transformer”(WeakREST)的新颖框架,旨在实现高AD准确性,同时最大限度地减少对大量注释的需求 ...