了解人群运动动态对于监控系统和自动驾驶等实际应用至关重要 ...

0 0 0 0 2024/06/17 arXiv:2005.08514v2 Eny530

模型预训练是现代视觉识别系统的基石。尽管对 ImageNet 等数据集的完全监督预训练仍然是事实上的标准,但最近的研究表明,大规模弱监督预训练可以优于完全监督方法。本文重新审视了使用主题标签监督、现代版本的残差网络以及有史以来最大的图像数据集和相应主题标签的弱监督模型预训练 ...

0 0 0 0 2024/06/17 arXiv:2201.08371v2 ko440124

预测周围交通参与者的未来状态是自动驾驶汽车的一项关键能力。最近提出的占用流场预测引入了可扩展且有效的表示来共同预测场景中周围代理的未来运动。然而,具有挑战性的部分是对交通代理之间的潜在社交互动以及占用率和流量之间的关系进行建模 ...

0 0 0 0 2024/06/17 arXiv:2208.00394v2 布朗瓶

核方法是经典机器学习的基石。使用量子计算机来计算内核的想法最近引起了人们的关注。通过将数据嵌入到量子计算机的希尔伯特空间中构建的量子嵌入内核(QEK)是一种特殊的量子内核技术,可以收集对学习问题的见解,并且特别适合噪声中等规模的量子设备 ...

0 0 0 0 2024/06/17 arXiv:2105.02276v1 oracle

视觉和语言导航 (VLN) 使代理能够按照 3D 环境中的自然语言指令导航到远程位置。为了表示先前访问的环境,大多数 VLN 方法使用循环状态、拓扑图或自上而下的语义图来实现内存。与这些方法相反,我们构建了自上而下的以自我为中心且动态增长的网格内存映射(即网格内存映射) ...

0 0 0 0 2024/06/17 arXiv:2307.12907v4 17562023920

我们引入有界生成作为一种通用任务来控制视频生成,以仅基于给定的开始和结束帧来合成任意相机和主体运动。我们的目标是充分利用图像到视频模型固有的泛化能力,而无需对原始模型进行额外的训练或微调。这是通过提出的新采样策略(我们称之为时间反转融合)来实现的,该策略分别融合了以开始帧和结束帧为条件的时间前向和后向去噪路径 ...

0 0 0 0 2024/06/17 arXiv:2403.14611v1 yumianya

自动驾驶系统需要能够充分理解和预测周围环境,以便在复杂场景下做出明智的决策。基于学习的系统的最新进展凸显了集成预测和规划模块的重要性。然而,这种整合带来了三大挑战:单一预测固有的权衡、预测模式之间的一致性以及预测和规划的社会一致性 ...

0 0 0 0 2024/06/17 arXiv:2402.02426v1 布朗瓶

以统计方式或对抗性方式检测距离训练分布足够远的测试样本是在许多现实世界的机器学习应用中部署良好分类器的基本要求。然而,众所周知,即使对于此类异常样本,具有 softmax 分类器的深度神经网络也会产生高度过度自信的后验分布。在本文中,我们提出了一种简单而有效的方法来检测任何异常样本,该方法适用于任何预训练的 softmax 神经分类器 ...

0 0 1 37 2024/06/17 arXiv:1807.03888v2 looking

大型语言模型 (LLM) 是巨大的人工神经网络,主要用于生成文本,但也提供非常复杂的语言使用概率模型。由于生成语义一致的文本需要一种有效的记忆形式,因此我们研究了 LLM 的记忆特性,并发现与人类记忆的关键特征惊人的相似之处。我们认为,大语言模型的类人记忆特性并不是从 LLM 架构中自动遵循的,而是从训练文本数据的统计中学习的 ...

0 0 0 0 2024/06/17 arXiv:2311.03839v3 mmShen

价值迭代网络 (VIN) 是一种端到端可微架构,可在潜在 MDP 上执行价值迭代,以便在强化学习 (RL) 中进行规划。然而,VIN 很难扩展到长期和大规模的规划任务,例如在 100 美元×100 美元的迷宫中导航——这项任务通常需要数千个规划步骤才能解决。我们观察到这种缺陷是由于两个问题造成的:潜在 MDP 的表示能力和规划模块的深度 ...

0 0 0 0 2024/06/17 arXiv:2406.08404v1 JayGee666

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)