组合训练已成为现有多模态大语言模型 (MLLM) 中事实上的范例,其中预训练的视觉编码器通过连续多模态预训练与预训练的 LLM 相连接。然而,由于分离的训练,这种范式的多模态缩放特性仍然难以探索。在本文中,我们以端到端的方式关注 MLLM 的本机训练,并系统地研究其在实际环境下的设计空间和可扩展性 ...
在大型语言模型 (LLM) 中推进代码推理从根本上受到高难度数据集稀缺的限制,尤其是那些具有大规模严格解决方案验证所需的可验证输入输出测试用例的数据集。我们引入了 rStar-Coder,它通过构建包含 418K 竞赛级代码问题、580K 长推理解决方案以及丰富的不同难度测试用例的大规模验证数据集,显着提高了 LLM 代码推理能力。这是通过三个核心贡献实现的:(1)我们策划竞争性编程代码问题和预言 ...
由于用户间特征的可变性以及在训练过程中形成看不见的新单词的无限字符组合,以文本和风格为条件的手写文本生成(HTG)是一项具有挑战性的任务。扩散模型最近在 HTG 中显示出了有希望的结果,但仍处于探索之中。我们提出了 DiffusionPen (DiffPen),一种基于潜在扩散模型的 5-shot 风格手写文本生成方法 ...
预排名阶段在大规模推荐系统中发挥着关键作用,但面临着模型表达性和计算效率之间的内在权衡。由于庞大的候选池和严格的延迟限制,行业系统通常依赖于轻量级的两塔架构,这种架构计算效率高,但估计能力有限。因此,他们很难捕捉候选项目之间复杂的协同和抑制关系,这对于生成上下文连贯且多样化的推荐列表至关重要 ...
自然图像任务的生成模型的评估已被广泛研究。类似的协议和指标用于具有独特特性的情况,例如手写生成,即使它们可能并不完全合适。在这项工作中,我们介绍了为 HTG 评估量身定制的三种措施,$ \text{HTG}_{\text{HTR}} $、$ \text{HTG}_{\text{style}} $ 和 $ \text{HTG}_{\text{OOV}} $,并认为它们更适合评估生成的手写图像的质量 ...
视觉生成和理解之间的表示差异在将这些功能集成到单个框架中时施加了关键的差距。为了弥合这一差距,我们介绍了一种离散的视觉 Token 仪,它编码了生成细节的细节,同时还捕获了高级语义以供理解。尽管最近的研究表明,这些目标可能引起训练中的损失冲突,但我们揭示了基础瓶颈源于离散 Token 的代表性有限 ...
从人类反馈中学习(RLHF)已成为部署最新机器学习系统的重要技术和讲故事工具。在这本书中,我们希望为具有一定程度的定量背景的人们轻柔地介绍核心方法。这本书始于RLHF的起源 - 无论是在最近的文献还是经济学,哲学和最佳控制方面的科学不同领域的融合中 ...
OpenAI 的 Sora 强调了视频生成对于开发遵守基本物理定律的世界模型的潜力。然而,视频生成模型在没有人类先验的情况下纯粹从视觉数据发现这些规律的能力可能会受到质疑。学习真实规律的世界模型应该能够对细微差别做出稳健的预测,并正确地推断出未见过的场景 ...