多边形网格是 3D 几何的有效表示,在计算机图形、机器人和游戏开发中至关重要。现有的基于学习的方法避免了使用 3D 网格的挑战,而是使用与神经架构和训练方法更兼容的替代对象表示。我们提出了一种直接对网格进行建模的方法,使用基于 Transformer 的架构顺序预测网格顶点和面 ...
0 0 0 2024/04/24 arXiv:2002.10880v1 happy
大型视觉语言模型最近取得了显着的进展,表现出对视觉信息的强大感知和推理能力。然而,如何有效评估这些大型视觉语言模型仍然是阻碍未来模型发展的主要障碍。 VQAv2 或 COCO Caption 等传统基准提供了定量的性能测量,但缺乏细粒度的能力评估和不稳健的评估指标 ...
0 0 0 2024/04/24 arXiv:2307.06281v3 wuweiqun
倒数函数 1/x 对于许多实时算法很重要。它被用于从迭代估计到机器学习等领域的各种算法中。许多这些算法本质上是迭代的,需要在线计算倒数 ...
0 0 0 2024/04/24 arXiv:2007.06241v1 dx
事实证明,使用大型语言模型 (LLM) 进行自我评估不仅在基准测试方面很有价值,而且在奖励建模、宪法人工智能和自我完善等方法方面也很有价值。但由于同一个 LLM 同时充当评估者和被评估者,因此引入了新的偏见。其中一种偏见是自我偏好, LLM 评估者对自己的输出评分高于其他人的输出,而人类注释者则认为它们具有相同的质量 ...
0 0 0 2024/04/24 arXiv:2404.13076v1 CuteM
虽然 Ferret 将区域理解无缝集成到大语言模型 (LLM) 中,以促进其参考和基础能力,但它也存在一定的局限性:受到预先训练的固定视觉编码器的限制,无法在更广泛的任务上表现良好。在这项工作中,我们推出了 Ferret-v2,它是 Ferret 的重大升级,具有三个关键设计。 (1) 任何分辨率基础和参考:一种灵活的方法,可以轻松处理更高的图像分辨率,提高模型更详细地处理和理解图像的能力 ...
0 0 0 2024/04/24 arXiv:2404.07973v1 bage
我们引入了 MVDream,这是一种扩散模型,能够根据给定的文本提示生成一致的多视图图像。通过从 2D 和 3D 数据中学习,多视图扩散模型可以实现 2D 扩散模型的通用性和 3D 渲染的一致性。我们证明,这种多视图扩散模型隐式地是与 3D 表示无关的可推广 3D 先验 ...
0 0 0 2024/04/24 arXiv:2308.16512v4 ff
在这项工作中,我们的主要目标是研究量子神经网络(QNN)机器学习动力学中的量子混沌和复杂性现象。混合量子经典框架中的参数化量子电路(PQC)被引入作为通用函数逼近器,以通过随机梯度下降(SGD)执行优化。我们采用统计和微分几何方法来研究 QNN 的学习理论 ...
0 0 0 2024/04/24 arXiv:2011.07145v2 oracle
最近,文本、布局和图像的多模态预训练在视觉丰富的文档理解任务中实现了 SOTA 性能,这表明了跨不同模态联合学习的巨大潜力。在本文中,我们提出了 LayoutXLM,一种用于多语言文档理解的多模态预训练模型,旨在消除语言障碍,实现视觉丰富的文档理解。为了准确评估 LayoutXLM,我们还引入了名为 XFUND 的多语言表单理解基准数据集,其中包含 7 种语言(中文、日语、西班牙语、法语、意大利语 ...
0 0 0 2024/04/24 arXiv:2104.08836v3 aben2022

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)