3D场景图最近已成为3D环境的强大高级表示。 3D场景图将环境描述为一个分层图,其中节点在多个级别的抽象和边缘表示概念之间的关系。尽管3D场景图可以用作机器人的高级“心理模型”,但如何实时建立如此丰富的代表仍然是未知的领域 ...
0 0 0 2025/04/14 arXiv:2201.13360v2 蔡明方
我们通过其在子结构计数中的能力来研究图神经网络(GNNS)表示功能的增强。最近的进步已经看到了子图GNN的采用,将输入图划分为众多子图,随后将GNN应用于每个子图以增强图形的总体表示。尽管它们能够识别各种子结构,但巨大的计算成本和内存成本却阻碍了GNN子图 ...
0 0 0 2025/04/14 arXiv:2303.10576v2 xixiaixixi
尽管知识密集型任务具有出色的功能,但大型语言模型(LLMS)在理解它们如何内化新知识的情况下,尤其是如何在其神经计算中结构嵌入获得的知识时面临着关键的差距。我们通过知识电路演化的角度来解决此问题,确定了促进知识存储和处理的计算子图。我们对整个持续预训练的电路演化的系统分析揭示了几个关键发现:(1)获取新知识受到其与预先存在的知识相关的影响; (2)知识电路的演变表现出从形成到优化的明显相位转移;  ...
0 0 0 2025/04/14 arXiv:2502.11196v1 leec
强化学习(RL)最近在改善大语言模型的推理能力方面表现出强大的潜力,现在正在积极扩展到视觉模型(VLMS)。但是,VLMS中的现有RL应用程序通常依赖于妨碍可重复性和可访问性的大量工程框架,同时缺乏标准化的评估协议,从而难以比较结果或解释培训动态。这项工作介绍了VLMS中RL的透明,从划线框架,提供了在多个模型和数据集中验证的最小但功能性的四步管道 ...
0 0 0 2025/04/14 arXiv:2504.02587v2 leec
现代的类不足图像分割的工具(例如,分割)和开放设定的语义理解(e ...
0 0 0 2025/04/14 arXiv:2404.13696v4 蔡明方
最近,基于流量匹配的语音合成显着提高了综合语音的质量,同时减少了推理步骤的数量。在本文中,我们介绍了Slimspech,这是基于整流流的轻巧有效的语音合成系统。我们已经基于使用整流流模型的现有语音合成方法,修改了其结构以减少参数并用作教师模型 ...
0 0 0 2025/04/14 arXiv:2504.07776v1 rke
文本到语音(TTS)技术已经为语言广泛取得了令人印象深刻的结果,但是许多资源不足的语言仍然受到有限的数据和语言复杂性的挑战。在本文中,我们提出了一种新颖的方法,该方法将数据优化的框架与先进的声学模型集成在一起,以构建用于低资源场景的高质量TTS系统。我们证明了使用泰语作为一种说明性的案例,我们证明了我们的方法的有效性,其中复杂的语音规则和稀疏资源得到了有效解决 ...
0 0 0 2025/04/14 arXiv:2504.07858v1 rke
我们介绍了交互式场景探索的新颖任务,其中机器人自主探索环境并产生一个由动作条件的场景图(ACSG)捕获基础环境的结构。 ACSG在场景中既说明了低级信息(几何和语义)以及高级信息(不同实体之间的动作条件关系)。为此,我们介绍了机器人探索(RoboExp)系统,该系统结合了大型多模式(LMM)和明确的内存设计,以增强系统的功能 ...
0 0 0 2025/04/14 arXiv:2402.15487v2 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)