一译 —— 文档和论文翻译、对照阅读、讨论和社区

A Multimodal Vision Foundation Model for Clinical Dermatology

诊断和治疗皮肤疾病需要跨领域的高级视觉技能，并具有从多种成像方式中综合信息的能力。尽管当前的深度学习模型在皮肤镜诊断（从皮肤镜图像中诊断）上表现出色，但它们努力满足临床实践的复杂，多模式的要求。在这里，我们介绍了Panderm，这是一种多模式皮肤病学基础模型，该模型是通过对4个成像方式的11个临床机构的200万个现实世界中皮肤病图像进行自我监督的学习预测的 ...

0 0 0 2025/06/08 arXiv:2410.15038v3 xxkaras

Token Level Routing Inference System for Edge Devices

大语言模型（LLM）推断的计算复杂性显着限制了其在边缘设备上的部署效率。相比之下，小语言模型可提供更快的解码和较低的资源消耗，但经常患有降解的响应质量和对幻觉的敏感性增强。为了解决这一权衡，合作解码，其中大型模型有助于产生关键 Token ，已成为一个有前途的解决方案 ...

0 0 0 2025/06/08 arXiv:2504.07878v1 qzy

Graph Counselor: Adaptive Graph Exploration via Multi-Agent Synergy to Enhance LLM Reasoning

图检索增强生成（GraphRag）通过明确建模知识关系有效地增强了外部知识集成能力，从而提高了专用域中大语言模型（LLMS）的事实准确性和发电质量。但是，现有方法遭受了两个固有的局限性：1）效率低下的信息聚合：它们依靠单个代理和固定迭代模式，因此很难自适应地捕获图形数据中的多级文本，结构和程度信息。 2）刚性推理机制：他们采用预设推理方案，该方案无法动态调整推理深度或实现精确的语义校正 ...

0 0 0 2025/06/08 arXiv:2506.03939v1 readpapers

From Documents to Dialogue: Building KG-RAG Enhanced AI Assistants

Adobe Experience Platform AI Assistant是一种对话工具，使组织能够通过聊天机器人与专有企业数据无缝互动。但是，由于访问限制，大型语言模型（LLMS）无法检索这些内部文档，从而限制了它们产生准确的零击响应的能力。为了克服这一限制，我们使用由知识图（KG）提供动力的检索型生成（RAG）框架来从外部知识源检索相关信息，使LLMS能够回答有关私人或以前看不见的文档收集的 ...

0 0 0 2025/06/08 arXiv:2502.15237v1 lin3

Image Editing As Programs with Diffusion Models

尽管扩散模型在文本到图像生成方面取得了巨大的成功，但通过教学驱动的图像编辑，它们遇到了重大挑战。我们的研究突出了一个关键挑战：这些模型特别在结构上不一致的编辑中挣扎，涉及实质性布局变化。为了减轻这一差距，我们将图像编辑介绍为程序（IEAP），这是建立在扩散 Transformer （DIT）体系结构上的统一图像编辑框架 ...

0 0 0 2025/06/08 arXiv:2506.04158v1 h094071

FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing

最新的无反转，基于流动的图像编辑方法（例如Flowedit）利用了预先训练的噪声到图像流量模型，例如稳定的扩散3，通过求解普通的微分方程（ODE），从而实现了文本驱动的操作。尽管缺乏确切的潜在反转是这些方法的核心优势，但它通常会导致编辑轨迹不稳定和源源较差。为了解决这一限制，我们提出了Flotalign，这是一种新型的基于无反转流的框架，用于一致的图像编辑，并具有原则性的轨迹控制 ...

0 0 0 2025/06/08 arXiv:2505.23145v1 h094071

Learning to Propagate Labels: Transductive Propagation Network for Few-shot Learning

几乎没有学习的目标是学习一个分类器，即使在每个课程的培训实例有限的培训实例培训时也可以很好地推广。最近引入的元学习方法通过学习大量多类分类任务的通用分类器并将模型推广到新任务，从而解决了这个问题。然而，即使有了这样的元学习，新颖的分类任务中仍然存在低数据的问题 ...

0 0 0 2025/06/08 arXiv:1805.10002v5 张小平

Universal Visuo-Tactile Video Understanding for Embodied Interaction

触觉感知对于体现的代理人了解无法单独通过视觉检查确定的物体的物理属性至关重要。尽管现有的方法在视觉和语言方式方面取得了进步，但它们无法有效地纳入触觉信息，从而为现实世界中的互动提供了关键的触觉反馈。在本文中，我们介绍了VTV-LLM，这是通用视觉视频视频（VTV）的第一个多模式的大型语言模型，理解它弥合了触觉感知与自然语言之间的鸿沟 ...

0 0 0 2025/06/08 arXiv:2505.22566v1 Hatteras

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）