xx的文档

xx 南京

生命的统一性和多样性

Tree-Ring Watermarks: Fingerprints for Diffusion Images that are Invisible and Robust

对生成模型的输出加水印是追踪版权和防止人工智能生成内容潜在危害的一项关键技术。在本文中，我们介绍了一种称为树环水印的新技术，该技术可以稳健地识别扩散模型输出的指纹。与采样后对图像进行事后修改的现有方法不同，树环水印巧妙地影响整个采样过程，从而产生人类不可见的模型指纹 ...

0 0 0 0 2024/03/16 arXiv:2305.20030v3 xx

Gemma: Open Models Based on Gemini Research and Technology

这项工作介绍了 Gemma，这是一个轻量级、最先进的开放模型系列，由用于创建 Gemini 模型的研究和技术构建而成。 Gemma 模型在语言理解、推理和安全方面的学术基准上表现出了强劲的性能。我们发布了两种规模的模型（20 亿和 70 亿个参数），并提供预训练和微调的检查点 ...

0 0 0 0 2024/03/15 arXiv:2403.08295v1 xx

Beyond Language Models: Byte Models are Digital World Simulators

传统的深度学习经常忽视字节，这是数字世界的基本单位，其中所有形式的信息和操作都以二进制格式进行编码和操作。受到自然语言处理中下一个标记预测成功的启发，我们引入了 bGPT，这是一个具有下一个字节预测功能的模型，用于模拟数字世界。 bGPT 与各种模式（包括文本、音频和图像）的性能专业模型相匹配，并为预测、模拟和诊断算法或硬件行为提供了新的可能性 ...

0 0 1 23 2024/03/14 arXiv:2402.19155v1 xx

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

语言模型已成为解决各种自然语言处理任务的关键技术，但有关如何开发性能最佳的语言模型的许多细节尚未报道。特别是，有关其预训练语料库的信息很少被讨论：商业语言模型很少提供有关其数据的任何信息；即使是开放模型也很少发布它们所训练的数据集，或者重现它们的确切方法。因此，进行某些语言建模研究是具有挑战性的，例如了解训练数据如何影响模型功能并形成其局限性 ...

0 3 2 163 2024/03/12 arXiv:2402.00159v1 xx

OLMo: Accelerating the Science of Language Models

语言模型 (LM) 在 NLP 研究和商业产品中已经变得无处不在。随着其商业重要性的飙升，最强大的模型已被封闭，被封闭在专有接口后面，其训练数据、架构和开发的重要细节均未公开。考虑到这些细节在科学研究这些模型中的重要性，包括它们的偏差和潜在风险，我们认为研究界有必要获得强大的、真正开放的 LM ...

0 2 1 36 2024/03/12 arXiv:2402.00838v3 xx

KTO: Model Alignment as Prospect Theoretic Optimization

Kahneman 和 Tversky 的 $\textit{前景理论}$ 告诉我们，人类以一种有偏见但定义明确的方式感知随机变量；例如，人类是出了名的厌恶损失。我们表明，使法学硕士与人类反馈保持一致的目标隐含地包含了许多这些偏见——这些目标的成功（例如， ...

0 0 0 0 2024/03/07 arXiv:2402.01306v1 xx

Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

最近提出了几个支持单级训练和工具采集的端到端文本转语音（TTS）模型，但它们的样本质量无法与两级 TTS 系统相媲美。在这项工作中，我们提出了一个工具的终极TTS方法，它可以生成比当前两阶段模型更自然的音频。我们的方法采用通过归一化流程和对抗训练过程增强的变分推理，提高了生成模型的表达能力... ...

0 1 1 1 2025/01/14 arXiv:2106.06103v1 xx

XLNet: Generalized Autoregressive Pretraining for Language Understanding

凭借对双向上下文进行建模的能力，BERT 等基于去噪自编码的预训练比基于自回归语言建模的预训练方法具有更好的性能。然而，依赖于用掩码破坏输入，BERT 忽略了掩码位置之间的依赖性，并遭受预训练微调差异的影响。鉴于这些优点和缺点，我们提出了 XLNet，一种广义的自回归预训练方法，它 (1) 通过最大化分解顺序的所有排列的预期可能性来学习双向上下文，(2) 由于其自回归克服了 BERT 的局限性公式 ...

0 2 1 1 2024/02/29 arXiv:1906.08237v2 xx

MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation

0 0 0 0 2024/01/29 arXiv:2312.11825v1 yiyi

Low Resource Pipeline for Spoken Language Understanding via Weak Supervision

0 0 1 4 2024/01/23 arXiv:2206.10559v1 yiyi