一译 —— 文档和论文翻译、对照阅读、讨论和社区

GL-PGENet: A Parameterized Generation Framework for Robust Document Image Enhancement

文档图像增强（DIE）是文档AI系统中的关键组件，其性能基本决定了下游任务的有效性。为了解决局限于单一降低恢复或灰度图像处理的现有方法的局限性，我们使用局部参数生成增强网络（GL-PGENET）呈现全球，这是一种新型体系结构，设计用于多衰减的彩色文档图像，确保在现实世界中的效率和鲁棒性。我们的解决方案结合了三个关键创新：首先，是一个分层增强框架，将全球外观校正与本地改进相结合，从而可以改进粗到精细 ...

0 0 0 2025/06/20 arXiv:2505.22021v1 小丸子

Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals?

随着大型语言模型（LLM）的不断发展，确保他们与人类目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是\ textIt {工具融合}，其中AI系统在优化给定的目标时，开发出意想不到的中间目标，覆盖了最终目标并偏离人类意义的目标。这个问题在强化学习（RL）培训的模型中尤其重要，该模型可以产生创造性但意外的策略以最大程度地提高奖励 ...

0 0 0 2025/06/20 arXiv:2502.12206v1 dropout

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

大型视觉模型（LVLMS）已大大提高，从而相互交织的视觉识别和语言理解，以生成不仅相干而且在上下文上的内容。尽管它们成功了，但LVLM仍然遭受了对象幻觉问题的困扰，在该问题中，模型产生了可行的，但不正确的输出，其中包括图像中不存在的对象。为了减轻此问题，我们引入了视觉对比度解码（VCD），这是一种简单且无训练的方法，它与来自原始和扭曲的视觉输入得出的输出分布对比 ...

0 0 0 2025/06/20 arXiv:2311.16922v1 18811558339

GO-N3RDet: Geometry Optimized NeRF-enhanced 3D Object Detector

我们提出了GO-N3RDET，这是一种场景几何优化的多视图3D对象检测器，可通过神经辐射场增强。精确3D对象检测的关键是有效体素表示。但是，由于阻塞和缺乏3D信息，从多视图2D图像中构建3D功能是具有挑战性的 ...

0 0 0 2025/06/20 arXiv:2503.15211v1 王辉

Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material

3D AI生成的内容（AIGC）是一个充满激情的领域，它显着加速了游戏，电影和设计中的3D模型。尽管开发了几种彻底改变3D代的开创性模型，但由于收集，处理和培训3D模型所涉及的复杂性，该领域仍然可以在研究人员，开发人员和设计师方面取得很大的访问。为了应对这些挑战，我们介绍了Hunyuan3d 2 ...

0 0 0 2025/06/20 arXiv:2506.15442v1 cheng.zy

Omni-Dimensional Dynamic Convolution

在每个卷积层中学习一个静态卷积内核是现代卷积神经网络（CNN）的常见训练范式。取而代之的是，动态卷积的最新研究表明，学习$ n $卷积内核与输入依赖性注意力的线性组合可以显着提高轻重量CNN的准确性，同时保持有效的推断。但是，我们观察到，现有的作品endow卷积内核具有通过一个维度（关于卷积内核编号）的动态属性的内核空间，但是其他三个维度（关于每个卷积内核的空间大小，输入通道号和输出通道号） .. ...

0 0 0 2025/06/20 arXiv:2209.07947v1 尼斯湖

Persona-SQ: A Personalized Suggested Question Generation Framework For Real-world Documents

建议的问题（SQS）为用户提供了有效的初始接口，以便在AI驱动的阅读应用程序中与其文档互动。在实践阅读会议中，用户具有不同的背景和阅读目标，但是当前的SQ功能通常忽略了此类用户信息，从而导致均质或无效的问题。我们介绍了一条管道，该管道通过将读取器概况（专业和阅读目标）结合起来，并以两种方式演示其实用性：1）作为改进的SQ生成管道，与当前的基准相比，与当前的基准相比，产生更高的质量和更多样化的问题， ...

0 0 0 2025/06/20 arXiv:2412.12445v2 cheeryapp

cAST: Enhancing Code Retrieval-Augmented Generation with Structural Chunking via Abstract Syntax Tree

检索增强的一代（RAG）对于大规模代码生成至关重要，基于外部代码语料库的预测以改善现实性。但是，抹布管道的一个关键但毫无疑问的方面是块 - 将文档分为可检索的单元的过程。现有的基于线的块启发式方法通常会破坏语义结构，分裂功能或合并无关的代码，从而降低发电质量 ...

0 0 0 2025/06/20 arXiv:2506.15655v1 yanxi

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）