一译 —— 文档和论文翻译、对照阅读、讨论和社区

Zero-Shot Anomaly Detection in Battery Thermal Images Using Visual Question Answering with Prior Knowledge

电池对于各种应用至关重要，包括电动汽车和可再生能源存储，使安全性和效率引起关注。电池热图像中的异常检测有助于尽早确定故障，但是传统的深度学习方法需要广泛的标记数据，这很难获得，尤其是由于安全风险和高数据收集成本而引起的异常。为了克服这一点，我们使用视觉问题答案（VQA）模型探索了零射击异常检测，该模型利用了验证的知识和基于文本的提示来跨视觉任务概括 ...

0 0 0 2025/05/26 arXiv:2505.16674v1 Roa

ViP$^2$-CLIP: Visual-Perception Prompting with Unified Alignment for Zero-Shot Anomaly Detection

零射击异常检测（ZSAD）旨在仅依靠外部辅助数据来检测无目标域训练样本的异常。现有的基于夹的方法试图通过手工制作或静态的可学习提示来激活模型的ZSAD潜力。前者的高工程成本和有限的语义覆盖范围，而后者对各种异常类型进行了相同的描述，因此无法适应复杂的变化 ...

0 0 0 2025/05/26 arXiv:2505.17692v1 Roa

All Beings Are Equal in Open Set Recognition

在开放式识别（OSR）中，有前途的策略是在给定$ k $ never类外的伪nosknown数据中作为额外的$ k $+$ 1 $ 1 $  -  th类，以明确模拟潜在的开放空间。但是，由于未知类别的类别和尺度不可知，因此相对于已知类别的未知类别而没有区分的未知类别是不平等的。这不可避免地不仅破坏了未知类别的固有分布，而且会在阶级和实例的不平衡阶层之间引起已知类别和未知类别之间的失衡 ...

0 0 0 2025/05/26 arXiv:2401.17654v1 ppbc

Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion

视觉指导调整（访问）数据通常可以作为人类转弯中的图像交错的人进行的对话，目前是对齐强LLM的最广泛的工具，以了解视觉输入，将其转换为强LMM。尽管有许多访问数据集可用，但大多数是使用由不同组独立开发的临时技术来构建的。它们通常记录在案不足，缺乏可重复的代码，并依靠付费的封闭源模型API，例如GPT-4，Gemini或Claude将图像元数据（标签）转换为访问说明 ...

0 0 0 2025/05/26 arXiv:2505.18115v1 zzshneuq

Analyzing Modern NVIDIA GPU cores

GPU是加速HPC工作负载的最受欢迎的平台，例如人工智能和科学模拟。但是，大多数学术界的微体系研究研究都依赖于基于15年以上建筑的GPU核心管道设计。本文逆向工程师现代的NVIDIA GPU内核，揭示了其设计的许多关键方面，并解释了GPU如何利用硬件编译器在执行过程中指导硬件的硬件技术 ...

0 0 0 2025/05/26 arXiv:2503.20481v1 magicp

PAConv: Position Adaptive Convolution with Dynamic Kernel Assembling on Point Clouds

我们引入了位置自适应卷积（PACONV），这是用于3D点云处理的通用卷积操作。 PACONV的关键是通过动态组装存储在重量库中的基本重量矩阵来构建卷积内核，在该量库中，这些重量矩阵的系数是通过Scorenet从点位置自动学习的。这样，内核是以数据驱动的方式构建的，它比2D卷积更具灵活性，以更好地处理不规则和无序的点云数据 ...

0 0 0 2025/05/26 arXiv:2103.14635v2 DamnMan

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

多视图3D重建仍然是计算机视觉中的核心挑战，尤其是在需要各种视角的准确和可扩展表示的应用中。当前的领先方法（例如DUST3R）采用了基本的成对方法，成对处理图像，并需要昂贵的全球对齐程序从多个视图中重建。在这项工作中，我们提出了快速的3D重建（FAST3R），这是一种对DUST3R的新型多视图概括，通过并行处理许多视图来实现有效且可扩展的3D重建 ...

0 0 0 2025/05/26 arXiv:2501.13928v2 15713826297

Robust AI-Synthesized Image Detection via Multi-feature Frequency-aware Learning

生成AI（Genai）技术的快速发展对滥用AI生成的图像的关注加剧了。为了解决这一问题，强大的检测方法已成为特别引人注目的，尤其是在有针对性的Genai模型过失或生成的图像在传输过程中受到扰动的挑战条件。本文介绍了一个多功能融合框架，旨在通过使用交叉源注意的机制来增强空间取证特征表达，并结合三个互补组件，即噪声相关分析，图像梯度信息和预处理的视觉编码器知识 ...

0 0 0 2025/05/26 arXiv:2504.02879v1 alimir

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）