尽管大规模预训练赋予模型语言和视觉推理能力,但由于缺乏基于 3D 世界的数据,提高其空间推理能力仍然具有挑战性。虽然人类可以通过 3D 图形手动创建身临其境的交互式世界,如 VR、游戏和机器人等应用中所见,但这一过程仍然是高度劳动密集型的。在本文中,我们提出了一种可扩展的方法来生成高质量的 3D 环境,该环境可以用作基础模型的训练数据。我们将 3D 环境构建重新定义为一个顺序决策问题,采用视觉语言模型 (VLM) 作为输出操作的策略,以共同制作 3D 环境的布局、材料、照明和资产。我们提出的框架 3D-Generalist 通过自我改进微调来训练 VLM 生成更加快速一致的 3D 环境。我们展示了 3D-Generalist 和所提出的训练策略在生成模拟就绪 3D 环境方面的有效性。此外,我们通过在生成的数据上预训练视觉基础模型来展示其在合成数据生成中的质量和可扩展性。在对下游任务的预训练模型进行微调后,我们表明它超越了在精心制作的合成数据上预训练的模型,并且接近使用大数量级的真实数据所获得的结果 ...

0 0 0 0 2026/02/10 arXiv:2507.06484v2 lucian_p

文本提示的图像分割可以实现细粒度的视觉理解,对于人机交互和机器人等应用至关重要。然而,现有的监督微调方法通常会在测试时忽略显式的思想链(CoT)推理,这限制了它们泛化到看不见的提示和领域的能力。为了解决这个问题,我们引入了 LENS,这是一种可扩展的强化学习框架,它以端到端的方式联合优化推理过程和分割。我们提出了跨越句子、框和段级别线索的统一强化学习奖励,鼓励模型生成信息丰富的 CoT 基本原理,同时改进掩模质量。使用公开的 30 亿参数视觉语言模型(即 Qwen2.5-VL-3B-Instruct),LENS 在 RefCOCO、RefCOCO+ 和 RefCOCOg 基准上实现了 81.2% 的平均 cIoU,比强微调方法(即 GLaMM)高出高达 5.6%。这些结果表明,RL 驱动的 CoT 推理显着增强了文本提示的分割,并为更通用的 Segment Anything 模型 (SAM) 提供了一条实用路径。代码可从此 https URL 获取 ...

0 0 0 0 2026/01/06 arXiv:2508.14153v2 lucian_p

基金会视觉语言模型目前正在改变计算机视觉,并且在其非常有前途的泛化能力的推动下,在医学成像领域正在兴起。然而,由于显着的领域转变以及医学成像任务固有的复杂的专家领域知识,将这种新范式转移到医学成像的初步尝试显示出的性能不如在其他领域观察到的令人印象深刻。出于对领域专家基础模型的需求,我们提出了 FLAIR,这是一种用于通用视网膜眼底图像理解的预训练视觉语言模型。为此,我们从不同来源编译了 38 个开放获取的、大部分是分类的眼底成像数据集,包含多达 101 个不同的目标条件和 288,307 个图像。我们在预训练和零样本推理过程中以描述性文本提示的形式整合专家的领域知识,增强数据的信息量较少的分类监督。我们根据相关临床文献和社区标准汇编而成的文本专家知识描述​​了病理学的细粒度特征以及它们之间的层次结构和依赖性。我们报告了全面的评估,说明了在领域转移或看不见的类别的困难场景下整合专家知识和 FLAIR 强大的泛化能力的好处。当采用轻量级线性探针时,FLAIR 的性能优于经过充分训练的、以数据集为中心的模型,在少数样本情况下更是如此。有趣的是,FLAIR 的性能远远优于更大规模的通用图像语言模型和视网膜特定领域的自监督网络,这强调了嵌入专家领域知识的潜力和医学成像中通用模型的局限性 ...

0 0 0 0 2025/12/18 arXiv:2308.07898v2 lucian_p

意义:通过高通量和易于使用的工具可以扩大获得眼科诊断护理的机会。基于相位掩模的成像可以通过在没有移动部件的情况下实现计算重新聚焦来改进眼底相机。虽然基于相位掩模的成像已在模型眼中得到验证,但这种方法尚未在体内展示$\textit{in vivo}$。目的:设计、构建和评估计算眼底相机,目的是确定基于相位掩模的 $\textit{in vivo}$ 眼底计算成像的可行性和性能。方法:在改进的商用眼底相机中,在与眼瞳共轭的平面处引入全息漫射器,从而产生随屈光不正变化的线性且平移不变的点扩散函数。图像可以在 $\geq\pm$ 10 屈光度的散焦误差范围内进行数字重新聚焦。该设备经过了眼部安全测试,并进行了人体成像试点研究。结果:该设备捕获并以数字方式重新聚焦彩色人体眼底图像。视场为 35 度,分辨率为每毫米 7.7-9.6 线对。结论:我们提出了第一个 $\textit{in vivo}$ 基于扩散器的眼底图像,证明了计算成像用于眼部诊断的可行性 ...

0 0 0 0 2025/12/16 arXiv:2406.00122v4 lucian_p

我们提出了FD3,一种基于直接扩散桥的眼底图像增强方法,它可以应对各种复杂的退化,包括雾霾、模糊、噪声和阴影。我们首先与经过委员会认证的眼科医生通过人类反馈回路提出了一个综合前向模型,以最大程度地提高低质量体内图像的质量。使用所提出的前向模型,我们训练了一个鲁棒且灵活的基于扩散的图像增强网络,该网络作为独立方法非常有效,而不像以前的基于扩散模型的方法仅充当预训练模型之上的细化器。通过大量的实验,我们表明 FD3 不仅在合成降解方面,而且在使用从白内障或小瞳孔患者拍摄的低质量眼底照片进行的体内研究中都建立了\add{卓越的质量}。为了促进该领域的进一步研究,我们在此 https URL 开源了用于本研究的所有代码和数据 ...

0 0 0 0 2025/12/16 arXiv:2409.12377v1 lucian_p

分割对于眼科图像分析至关重要。但其各种模态图像阻碍了大多数现有分割算法的应用,因为它们依赖于基于大量标签的训练或泛化能力较弱。基于Segment Anything(SAM),我们提出了一种简单但有效的可学习提示层,适用于眼科多模态图像中的多目标分割,命名为Learnable Ophthalmology Segment Anything(SAM)。可学习提示层从每个转换层学习医学先验知识。在训练过程中,我们仅基于一次性机制训练提示层和任务头。我们基于四个医学分割任务(基于九个公开可用的数据集)证明了我们的想法的有效性。而且,我们只是为现有的基础CV模型在医学领域的应用提供了一种新的改进思路。我们的代码可在 \href{此 https URL}{网站} 获取 ...

0 0 0 0 2025/11/19 arXiv:2304.13425v1 lucian_p

最近基于扩散的方法在基于图像的虚拟试穿方面取得了重大进展,实现了更真实的端到端服装合成。然而,大多数现有方法仍然受到对展览服装和分割掩模的依赖以及处理灵活姿势变化的能力的限制。这些限制降低了它们在现实场景中的实用性,例如,用户无法轻松地将一个人穿的衣服转移到另一个人身上,并且生成的试穿结果通常仅限于与参考图像相同的姿势 ...

0 0 0 0 2025/10/24 arXiv:2508.04559v1 lucian_p

虚拟试穿旨在合成穿着目标服装的人的真实图像,但准确建模服装与身体的对应关系仍然是一个持续的挑战,特别是在姿势和外观变化的情况下。在本文中,我们提出了 Voost - 一个统一且可扩展​​的框架,可通过单个扩散 Transformer 联合学习虚拟试穿和试穿。通过对这两个任务进行联合建模,Voost 使每个服装-人对能够监督两个方向,并支持对生成方向和服装类别的灵活调节,从而增强服装-身体关系推理,而无需特定于任务的网络、辅助损失或附加标签 ...

0 0 0 0 2025/10/24 arXiv:2508.04825v1 lucian_p

本文研究了从单目图像重建 3D 穿着人体的研究任务。由于单视图输入固有的模糊性,现有方法利用预先训练的 SMPL(-X) 估计模型或生成模型为人体重建提供辅助信息。然而,这些方法仅捕获一般的人体几何形状,而忽略了特定的几何细节,导致骨骼重建不准确、关节位置不正确以及布料皱纹不清晰 ...

0 0 0 0 2025/10/22 arXiv:2412.03103v1 lucian_p

近年来,大型语言模型(LLMS)迅速发展,诸如Chatgpt和DeepSeek之类的模型展示了它们在不同领域的非凡功能。尽管已经对各个领域的LLM进行了大量研究,但重点是与计算机辅助设计(CAD)集成的全面审查仍然没有。 CAD是3D建模的行业标准,在不同行业的产品的设计和开发中起着至关重要的作用 ...

0 0 0 0 2025/05/15 arXiv:2505.08137v1 lucian_p