最近深度学习的成功部分归功于在更大的数据集上训练日益过度参数化的网络。因此,很自然地会问:有多少数据是多余的,哪些例子对于泛化很重要,以及我们如何找到它们?在这项工作中,我们做出了惊人的观察,在标准视觉数据集中,在几个权重初始化上平均的简单分数可以用来在训练的早期识别重要的例子。我们提出了两个这样的分数——梯度归一化(GraNd)和误差L2-归一化(EL2N)分数——并通过在不牺牲测试准确性的情况下修剪训练数据的重要部分来证明它们在一系列架构和数据集上的功效 ...

0 0 0 0 2024/05/16 arXiv:2107.07075v2 jiangtingyu

此外,上下文示例之间的强依赖性使其成为 NP 难组合优化问题,并且枚举所有排列是不可行的。因此,我们提出了 LENS,一种过滤搜索方法,分两个阶段应对这一挑战:首先,我们过滤数据集以单独获取信息丰富的上下文示例。具体来说,我们提出了一种新颖的指标 InfoScore,用于根据语言模型的反馈评估示例的上下文信息量,并进一步提出渐进式过滤过程来过滤掉无信息的示例 ...

0 0 0 0 2024/05/14 arXiv:2302.13539v3 jiangtingyu

尽管大型语言模型最近取得了进展,但构建可靠且可部署的 NLP 模型通常需要丰富、高质量的训练数据。然而,许多用例无法获得特定于任务的数据,并且手动管理特定于任务的数据是劳动密集型的。最近的工作研究了使用大型语言模型的提示驱动的合成数据生成,但这些生成的数据集往往缺乏复杂性和多样性 ...

0 0 0 0 2024/05/07 arXiv:2404.14361v3 jiangtingyu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)