lucian_p的文档

3D-Generalist: Self-Improving Vision-Language-Action Models for Crafting 3D Worlds

尽管大规模预训练赋予模型语言和视觉推理能力，但由于缺乏基于 3D 世界的数据，提高其空间推理能力仍然具有挑战性。虽然人类可以通过 3D 图形手动创建身临其境的交互式世界，如 VR、游戏和机器人等应用中所见，但这一过程仍然是高度劳动密集型的。在本文中，我们提出了一种可扩展的方法来生成高质量的 3D 环境，该环境可以用作基础模型的训练数据。我们将 3D 环境构建重新定义为一个顺序决策问题，采用视觉语言模型 (VLM) 作为输出操作的策略，以共同制作 3D 环境的布局、材料、照明和资产。我们提出的框架 3D-Generalist 通过自我改进微调来训练 VLM 生成更加快速一致的 3D 环境。我们展示了 3D-Generalist 和所提出的训练策略在生成模拟就绪 3D 环境方面的有效性。此外，我们通过在生成的数据上预训练视觉基础模型来展示其在合成数据生成中的质量和可扩展性。在对下游任务的预训练模型进行微调后，我们表明它超越了在精心制作的合成数据上预训练的模型，并且接近使用大数量级的真实数据所获得的结果 ...

0 0 0 0 2026/02/10 arXiv:2507.06484v2 lucian_p

LENS: Learning to Segment Anything with Unified Reinforced Reasoning

文本提示的图像分割可以实现细粒度的视觉理解，对于人机交互和机器人等应用至关重要。然而，现有的监督微调方法通常会在测试时忽略显式的思想链（CoT）推理，这限制了它们泛化到看不见的提示和领域的能力。为了解决这个问题，我们引入了 LENS，这是一种可扩展的强化学习框架，它以端到端的方式联合优化推理过程和分割。我们提出了跨越句子、框和段级别线索的统一强化学习奖励，鼓励模型生成信息丰富的 CoT 基本原理，同时改进掩模质量。使用公开的 30 亿参数视觉语言模型（即 Qwen2.5-VL-3B-Instruct），LENS 在 RefCOCO、RefCOCO+ 和 RefCOCOg 基准上实现了 81.2% 的平均 cIoU，比强微调方法（即 GLaMM）高出高达 5.6%。这些结果表明，RL 驱动的 CoT 推理显着增强了文本提示的分割，并为更通用的 Segment Anything 模型 (SAM) 提供了一条实用路径。代码可从此 https URL 获取 ...

0 0 0 0 2026/01/06 arXiv:2508.14153v2 lucian_p

A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision

基金会视觉语言模型目前正在改变计算机视觉，并且在其非常有前途的泛化能力的推动下，在医学成像领域正在兴起。然而，由于显着的领域转变以及医学成像任务固有的复杂的专家领域知识，将这种新范式转移到医学成像的初步尝试显示出的性能不如在其他领域观察到的令人印象深刻。出于对领域专家基础模型的需求，我们提出了 FLAIR，这是一种用于通用视网膜眼底图像理解的预训练视觉语言模型。为此，我们从不同来源编译了 38 个开放获取的、大部分是分类的眼底成像数据集，包含多达 101 个不同的目标条件和 288,307 个图像。我们在预训练和零样本推理过程中以描述性文本提示的形式整合专家的领域知识，增强数据的信息量较少的分类监督。我们根据相关临床文献和社区标准汇编而成的文本专家知识描述了病理学的细粒度特征以及它们之间的层次结构和依赖性。我们报告了全面的评估，说明了在领域转移或看不见的类别的困难场景下整合专家知识和 FLAIR 强大的泛化能力的好处。当采用轻量级线性探针时，FLAIR 的性能优于经过充分训练的、以数据集为中心的模型，在少数样本情况下更是如此。有趣的是，FLAIR 的性能远远优于更大规模的通用图像语言模型和视网膜特定领域的自监督网络，这强调了嵌入专家领域知识的潜力和医学成像中通用模型的局限性 ...

0 0 0 0 2025/12/18 arXiv:2308.07898v2 lucian_p

$\textit{In vivo}$ fundus imaging and computational refocusing with a diffuser-based fundus camera

意义：通过高通量和易于使用的工具可以扩大获得眼科诊断护理的机会。基于相位掩模的成像可以通过在没有移动部件的情况下实现计算重新聚焦来改进眼底相机。虽然基于相位掩模的成像已在模型眼中得到验证，但这种方法尚未在体内展示$\textit{in vivo}$。目的：设计、构建和评估计算眼底相机，目的是确定基于相位掩模的 $\textit{in vivo}$ 眼底计算成像的可行性和性能。方法：在改进的商用眼底相机中，在与眼瞳共轭的平面处引入全息漫射器，从而产生随屈光不正变化的线性且平移不变的点扩散函数。图像可以在 $\geq\pm$ 10 屈光度的散焦误差范围内进行数字重新聚焦。该设备经过了眼部安全测试，并进行了人体成像试点研究。结果：该设备捕获并以数字方式重新聚焦彩色人体眼底图像。视场为 35 度，分辨率为每毫米 7.7-9.6 线对。结论：我们提出了第一个 $\textit{in vivo}$ 基于扩散器的眼底图像，证明了计算成像用于眼部诊断的可行性 ...

0 0 0 0 2025/12/16 arXiv:2406.00122v4 lucian_p

Fundus image enhancement through direct diffusion bridges

我们提出了FD3，一种基于直接扩散桥的眼底图像增强方法，它可以应对各种复杂的退化，包括雾霾、模糊、噪声和阴影。我们首先与经过委员会认证的眼科医生通过人类反馈回路提出了一个综合前向模型，以最大程度地提高低质量体内图像的质量。使用所提出的前向模型，我们训练了一个鲁棒且灵活的基于扩散的图像增强网络，该网络作为独立方法非常有效，而不像以前的基于扩散模型的方法仅充当预训练模型之上的细化器。通过大量的实验，我们表明 FD3 不仅在合成降解方面，而且在使用从白内障或小瞳孔患者拍摄的低质量眼底照片进行的体内研究中都建立了\add{卓越的质量}。为了促进该领域的进一步研究，我们在此 https URL 开源了用于本研究的所有代码和数据 ...

0 0 0 0 2025/12/16 arXiv:2409.12377v1 lucian_p

Learnable Ophthalmology SAM

分割对于眼科图像分析至关重要。但其各种模态图像阻碍了大多数现有分割算法的应用，因为它们依赖于基于大量标签的训练或泛化能力较弱。基于Segment Anything（SAM），我们提出了一种简单但有效的可学习提示层，适用于眼科多模态图像中的多目标分割，命名为Learnable Ophthalmology Segment Anything（SAM）。可学习提示层从每个转换层学习医学先验知识。在训练过程中，我们仅基于一次性机制训练提示层和任务头。我们基于四个医学分割任务（基于九个公开可用的数据集）证明了我们的想法的有效性。而且，我们只是为现有的基础CV模型在医学领域的应用提供了一种新的改进思路。我们的代码可在 \href{此 https URL}{网站} 获取 ...

0 0 0 0 2025/11/19 arXiv:2304.13425v1 lucian_p

3D-Generalist: Self-Improving Vision-Language-Action Models for Crafting 3D Worlds

LENS: Learning to Segment Anything with Unified Reinforced Reasoning

A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision

$\textit{In vivo}$ fundus imaging and computational refocusing with a diffuser-based fundus camera

Fundus image enhancement through direct diffusion bridges

Learnable Ophthalmology SAM

One Model For All: Partial Diffusion for Unified Try-On and Try-Off in Any Pose

Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

MultiGO: Towards Multi-level Geometry Learning for Monocular 3D Textured Human Reconstruction

Large Language Models for Computer-Aided Design: A Survey