音频水印越来越多地用于验证AI生成的内容的出处,从而实现了诸如检测AI生成的语音,保护音乐IP和防御语音克隆之类的应用程序。为了有效,音频水印必须抵制扭曲信号以逃避检测的删除攻击。尽管许多方案声称鲁棒性,但这些主张通常是孤立的,并反对有限的攻击 ...
面对生成模型的新时代,人工产生的内容的检测已成为最重要的问题。特别是,在用户友好型平台上创建可靠的长时间合成音乐的能力在流媒体服务和对人类艺术家的不公平竞争中构成了真正的欺诈威胁。本文展示了包含真实音频和人工重建的数据集上培训分类器的可能性(令人惊讶的),具有令人信服的精度为99 ...
大型语言模型已经催化了代码生成中前所未有的波浪。在取得重大进步的同时,它们模糊了机器和人为源代码之间的区别,从而导致软件工件的完整性和真实性问题。事实证明,诸如检测之类的方法(例如检测)可以有效辨别机器生成的文本,但它们没有识别和利用机器生成的代码的独特模式 ...
深度学习分类器的广泛使用需要开放式识别(OSR),这不仅可以从培训期间已知的类,而且还可以从测试数据中可能存在的未知类别中识别输入数据。由于依赖复杂的生成模型或高训练成本,许多现有的OSR方法在计算上昂贵。我们从表示学习的角度研究OSR,特别是通过球形嵌入 ...
分别分布(OOD)检测是机器学习模型的安全部署的一个关键问题,该模型识别出介于培训分布之外的样本,即分布数据(ID) ...
分布(OOD)概括对于现实世界中部署的机器学习模型至关重要。但是,实现这一目标在根本上可能具有挑战性,因为它需要能够在不同领域或环境中学习不变特征的能力。在本文中,我们提出了一个新型的框架hypo(helferspherical ood概括),该框架可以在超级球形空间中学习域不变的表示 ...
域的适应(DA)受益于严格的理论著作,该著作研究了其有见地的特征和各个方面,例如学习领域不变的表示及其权衡 ...
大型语言模型(LLM)在产生多种文本内容方面已经达到了类似人类的熟练程度,强调了有效的假文本检测的必要性,以避免在社交媒体上的假新闻等潜在风险。先前的研究主要测试了分布数据集上的单个模型,从而限制了我们对这些模型在不同类型的数据中如何执行LLM生成的文本检测任务的理解。我们通过在分布和分布数据集上测试五个基于 Transformer 的专业模型来研究此问题,以更好地评估其性能和概括性 ...
在过去的几年中,深度学习取得了巨大的成功。但是,面对非IID情况,深度学习的表现可能会阻碍。域的概括(DG)使模型可以概括为看不见的测试分布,即 ...
迅速学习是通过使用很少的样本调整可学习的及时向量来调整强大的视觉语言基础模型(例如剪辑)的最有效和热门方式之一。但是,尽管及时的学习在内域数据上取得了出色的表现,但它仍然面临着概括不见的类和领域的主要挑战。一些现有的及时学习方法通过适应为不同的 Token 或域的不同提示来解决这个问题,但忽略了学到的提示能力概括到看不见的域 ...