通道排名涉及两个阶段:通道检索和通过重新排行,这对于信息检索领域的学者和行业来说都是重要且具有挑战性的主题(IR)。但是,通用通道排名的常用数据集通常集中在英语上。对于非英语场景,例如中文,现有数据集在数据量表,细粒度相关性注释和虚假负面问题方面受到限制 ...
多语预测(MTP)是最近提出的语言模型预训练目标。 MTP不仅要仅预测下一 Token (NTP),还使用多个预测负责人在每个预测步骤中预测下一个$ k $ Token 。 MTP在改善下游性能,推理速度和训练效率方面表现出了希望,尤其是对于大型模型 ...
大型语言模型(LLM)和音频语言模型的最新进展已大大改善了音乐的发电,尤其是歌词到歌曲的一代。但是,现有的方法仍然在歌曲的复杂组成和高质量数据的稀缺性方面困难,从而导致声音质量,音乐性,跟随教学和声音启动和谐的限制。为了应对这些挑战,我们介绍了LEVO,这是一个基于LM的框架,由LELM和音乐编解码器组成 ...
大量数量和高质量是制作具有样本隐私保护的良好培训数据集的黄金规则。生成类似于高质量私人数据的合成样本,同时确保差异隐私(DP),正式的隐私保证有望可扩展性和实用性。但是,现有的方法依靠预先训练的模型用于数据合成%,这些模型避免了微调大型预训练的生成模型通常在数据缺陷的情况下挣扎,患有有限的样本量,不可避免的生成噪声和现有的预训练模型偏见 ...
有效的多模式推理取决于视觉和语言表示的对准,但是视觉模型(VLM)实现这种比对的机制仍然很少理解。我们介绍了一个方法论框架,该框架故意维护冷冻大型语言模型(LLM)和一个冷冻视觉 Transformer (VIT),该框架仅通过在视觉教学调谐过程中训练线性适配器连接。这种设计对我们的方法至关重要:通过保持语言模型冻结,我们确保它在不适应视觉数据的情况下维护其原始语言表示 ...
通常认为,缩放语言模型应通过增加参数(参数缩放)或输出 Token (推进时间缩放)来实现大量的空间或时间成本。我们介绍了第三个也是更高的推理缩放范式:在训练和推理时间内增加模型的并行计算。我们将$ p $多样性和可学习的转换应用于输入,并行执行模型的前向通过,然后动态汇总$ p $输出 ...
由于需要精确的唇部同步,自然的面部表情和高保真的身体运动动力学,因此产生由音频和骨骼运动驱动的高度动态和影像肖像动画仍然具有挑战性。我们提出了一个与人类优先一致的扩散框架,该框架通过两个关键的创新来解决这些挑战。首先,我们引入了针对以人为中心的动画定制的直接偏好优化,利用人类偏好的策划数据集将生成的输出与感知指标相结合,以进行肖像运动视频对齐和表达的自然性 ...
大规模培训语料库已大大提高了ASR模型的性能。不幸的是,由于数据的相对稀缺性,对于大多数ASR模型来说,中国口音和方言仍然是一个挑战。自我监督学习的最新进展表明,自我监督的预训练与大语言模型(LLM)相结合可以有效地提高低资源场景中的ASR绩效 ...