一译 —— 文档和论文翻译、对照阅读、讨论和社区

Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation

为深视觉模型准备培训数据是一项劳动密集型的任务。为了解决这个问题，生成模型已成为生成合成数据的有效解决方案。尽管当前的生成模型产生了图像级类别标签，但我们提出了一种新的方法，用于使用文本到图像生成模型稳定扩散（SD）生成像素级语义分割标签 ...

0 0 0 2025/06/19 arXiv:2309.14303v4 heuwangchao

Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey

人工智能的快速发展不断重塑智能医疗保健和医学领域。作为一项重要技术，由于数据互补性，全面的建模形式和巨大的应用潜力，多模式学习越来越引起人们的兴趣。目前，许多研究人员正在将注意力集中在这一领域，进行广泛的研究并构建丰富的智能系统 ...

0 0 0 2025/06/19 arXiv:2408.12880v1 happylittleqiang

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

类似 Sora 的视频生成模型通过多模态扩散 Transformer  MM-DiT 架构取得了显着的进步。然而，当前的视频生成模型主要关注单提示，难以生成具有多个连续提示的连贯场景，以更好地反映现实世界的动态场景。虽然一些开创性的作品探索了多提示视频生成，但它们面临着重大挑战，包括严格的训练数据要求、弱提示跟随和不自然的过渡 ...

0 0 0 2025/06/19 arXiv:2412.18597v2 KingYi

CellAgent: An LLM-driven Multi-Agent Framework for Automated Single-cell Data Analysis

单细胞RNA测序（SCRNA-SEQ）数据分析对于生物学研究至关重要，因为它可以精确地表征细胞异质性。但是，手动操纵各种工具以实现预期的结果可能是研究人员的劳动密集型。为了解决这个问题，我们介绍了Cellagent（此HTTP URL），这是一个由LLM驱动的多代理框架，专为SCRNA-SEQ数据分析任务的自动处理和执行而设计，在没有人类干预的情况下提供了高质量的结果 ...

0 0 0 2025/06/19 arXiv:2407.09811v1 ifzz

RealisDance: Equip controllable character animation with realistic hands

可控角色动画是一个新兴任务，它生成由给定字符图像的姿势序列控制的字符视频。尽管角色一致性通过参考UNET取得了重大进展，但尚未通过现有方法对另一个关键因素（姿势控制）进行了很好的研究，从而导致了几个问题：1）当输入姿势序列损坏时，一代可能会失败。 2）使用DWPOSE序列产生的手是模糊的和不现实的 ...

0 0 0 2025/06/19 arXiv:2409.06202v1 小小卡拉米

DSFNet: Dual Space Fusion Network for Occlusion-Robust 3D Dense Face Alignment

对严重阻塞和大视角的敏感性限制了现有单眼3D密集的面部对齐方法的使用场景。基于3DMM的最先进的方法直接回归模型的系数，使低级2D空间和语义信息不足，这实际上可以提供面部形状和方向的线索。在这项工作中，我们演示了图像和模型空间中的3D面部几何形状如何共同解决遮挡和视角问题 ...

0 0 0 2025/06/19 arXiv:2305.11522v1 No_fake

Graphiti: Bridging Graph and Relational Database Queries

本文提出了一种自动推理技术，用于检查用Cypher编写的图形数据库查询与SQL中的关系查询之间的等效性。为了在这种情况下形式化适当的等价概念，我们介绍了数据库 Transformer 的概念，该概念在图和关系模型之间转换数据库实例。然后，我们提出了一种新颖的验证方法，该方法可以通过减少原始问题来验证一对SQL查询之间的等效性来检查给定的 Transformer  ...

0 0 0 2025/06/19 arXiv:2504.03182v1 liuweitang

RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild

可控的角色动画仍然是一个具有挑战性的问题，尤其是在处理稀有姿势，风格化字符，角色对象相互作用，复杂的照明和动态场景时。为了解决这些问题，先前的工作主要集中在通过详尽的旁路网络注入姿势和外观指导，但经常努力概括为开放世界的情况。在本文中，我们提出了一种新的观点，即，只要基础模型足够强大，具有灵活的微调策略的直接模型修改就可以在很大程度上应对上述挑战，从而迈出迈向野外可控角色动画的一步 ...

0 0 0 2025/06/19 arXiv:2504.14977v1 小小卡拉米

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）