我们介绍了GEO4D,这是一种重新利用动态场景单眼3D重建的视频扩散模型的方法。通过利用此类视频模型捕获的强大动态先验,只能使用合成数据训练GEO4D,同时以零拍的方式很好地推广到真实数据。 GEO4D预测了几种互补的几何方式,即点,深度和射线图 ...
我们提出了4DGT,这是一种基于高斯的4D Transformer 模型,用于动态场景重建,完全对现实世界中的单眼姿势视频进行了训练。 4DGT使用4D高斯作为感应偏置,将静态和动态组件统一,从而实现具有不同对象寿命的复杂,时变环境的建模。我们在训练中提出了一种新型的密度控制策略,这使我们的4DGT能够处理更长的时空输入并在运行时保持有效的渲染 ...
为了使AI系统与人有效沟通,他们必须了解我们如何做出决定。但是,人们的决定并不总是理性的,因此在大语模型(LLMS)中,人类决策的隐式内部模型必须考虑到这一点。以前的经验证据似乎表明,这些隐性模型是准确的-LLMS提供了可信的人类行为的代理,表现出我们期望人类在日常互动中的期望 ...
在地理空间域中,通用表示模型的普遍性要比其在自然语言处理和计算机视觉中的广泛使用少得多。这种差异主要源于与现有表示模型的投入相关的高成本,这些模型通常需要街道视图和移动性数据。为了解决这个问题,我们开发了一种新颖的,无训练的方法,该方法利用openstreetMap的大型语言模型(LLM)和辅助图数据来得出地理位置表示(LLMGEOVEC) ...
句子表示学习(SRL)是自然语言处理(NLP)中的一项基本任务,由于其出色的性能,对句子嵌入(CSE)的对比度学习是主流技术。 CSE中一种有趣的现象是监督和无监督方法之间的显着性能差距,其唯一的差异在于培训数据。以前的工作将这一性能差距归因于两个表示属性(对齐和均匀性)的差异 ...
随着大规模语言模型对安全关键领域的影响越来越大,确保它们可靠地遵守明确定义的原则仍然是一个基本挑战。我们引入了协商对齐(Deliberative Alignment),这是一种新的范式,可以直接教授模型安全规范,并训练它在回答之前明确回忆并准确推理规范。我们使用这种方法来调整 OpenAI 的 o 系列模型,并实现了对 OpenAI 安全策略的高度精确遵守,而不需要人工编写的思路或答案 ...
无监督的学习技术已经赶上了甚至超过一般对象分类(GOC)和人员重新识别(RE-ID)的监督学习技术。但是,发现无监督的细粒度视觉分类(FGVC)比GOC和人重新ID更具挑战性。为了弥合FGVC的无监督和监督学习之间的差距,我们研究了监督和无监督的FGVC之间的性能差距(包括特征提取,聚类和对比度学习) ...
本文通过自回旋模型(D-AR)进行了扩散,这是一种新的范式,以标准的下一步预测方式将图像扩散过程重新塑造为一种香草自回归过程。我们首先设计将图像转换为离散 Token 序列的 Token ,在该序列中,可以将不同位置的 Token 解码为像素空间中的不同扩散降解步骤。得益于扩散属性,这些 Token 自然遵循粗到最新的顺序,这直接将其自动进行自回旋建模 ...