基金会视觉语言模型目前正在改变计算机视觉,并且在其非常有前途的泛化能力的推动下,在医学成像领域正在兴起。然而,由于显着的领域转变以及医学成像任务固有的复杂的专家领域知识,将这种新范式转移到医学成像的初步尝试显示出的性能不如在其他领域观察到的令人印象深刻。出于对领域专家基础模型的需求,我们提出了 FLAIR,这是一种用于通用视网膜眼底图像理解的预训练视觉语言模型。为此,我们从不同来源编译了 38 个开放获取的、大部分是分类的眼底成像数据集,包含多达 101 个不同的目标条件和 288,307 个图像。我们在预训练和零样本推理过程中以描述性文本提示的形式整合专家的领域知识,增强数据的信息量较少的分类监督。我们根据相关临床文献和社区标准汇编而成的文本专家知识描述​​了病理学的细粒度特征以及它们之间的层次结构和依赖性。我们报告了全面的评估,说明了在领域转移或看不见的类别的困难场景下整合专家知识和 FLAIR 强大的泛化能力的好处。当采用轻量级线性探针时,FLAIR 的性能优于经过充分训练的、以数据集为中心的模型,在少数样本情况下更是如此。有趣的是,FLAIR 的性能远远优于更大规模的通用图像语言模型和视网膜特定领域的自监督网络,这强调了嵌入专家领域知识的潜力和医学成像中通用模型的局限性 ...

0 0 0 0 2025/12/18 arXiv:2308.07898v2 lucian_p

意义:通过高通量和易于使用的工具可以扩大获得眼科诊断护理的机会。基于相位掩模的成像可以通过在没有移动部件的情况下实现计算重新聚焦来改进眼底相机。虽然基于相位掩模的成像已在模型眼中得到验证,但这种方法尚未在体内展示$\textit{in vivo}$。目的:设计、构建和评估计算眼底相机,目的是确定基于相位掩模的 $\textit{in vivo}$ 眼底计算成像的可行性和性能。方法:在改进的商用眼底相机中,在与眼瞳共轭的平面处引入全息漫射器,从而产生随屈光不正变化的线性且平移不变的点扩散函数。图像可以在 $\geq\pm$ 10 屈光度的散焦误差范围内进行数字重新聚焦。该设备经过了眼部安全测试,并进行了人体成像试点研究。结果:该设备捕获并以数字方式重新聚焦彩色人体眼底图像。视场为 35 度,分辨率为每毫米 7.7-9.6 线对。结论:我们提出了第一个 $\textit{in vivo}$ 基于扩散器的眼底图像,证明了计算成像用于眼部诊断的可行性 ...

0 0 0 0 2025/12/16 arXiv:2406.00122v4 lucian_p

我们提出了FD3,一种基于直接扩散桥的眼底图像增强方法,它可以应对各种复杂的退化,包括雾霾、模糊、噪声和阴影。我们首先与经过委员会认证的眼科医生通过人类反馈回路提出了一个综合前向模型,以最大程度地提高低质量体内图像的质量。使用所提出的前向模型,我们训练了一个鲁棒且灵活的基于扩散的图像增强网络,该网络作为独立方法非常有效,而不像以前的基于扩散模型的方法仅充当预训练模型之上的细化器。通过大量的实验,我们表明 FD3 不仅在合成降解方面,而且在使用从白内障或小瞳孔患者拍摄的低质量眼底照片进行的体内研究中都建立了\add{卓越的质量}。为了促进该领域的进一步研究,我们在此 https URL 开源了用于本研究的所有代码和数据 ...

0 0 0 0 2025/12/16 arXiv:2409.12377v1 lucian_p

分割对于眼科图像分析至关重要。但其各种模态图像阻碍了大多数现有分割算法的应用,因为它们依赖于基于大量标签的训练或泛化能力较弱。基于Segment Anything(SAM),我们提出了一种简单但有效的可学习提示层,适用于眼科多模态图像中的多目标分割,命名为Learnable Ophthalmology Segment Anything(SAM)。可学习提示层从每个转换层学习医学先验知识。在训练过程中,我们仅基于一次性机制训练提示层和任务头。我们基于四个医学分割任务(基于九个公开可用的数据集)证明了我们的想法的有效性。而且,我们只是为现有的基础CV模型在医学领域的应用提供了一种新的改进思路。我们的代码可在 \href{此 https URL}{网站} 获取 ...

0 0 0 0 2025/11/19 arXiv:2304.13425v1 lucian_p

最近基于扩散的方法在基于图像的虚拟试穿方面取得了重大进展,实现了更真实的端到端服装合成。然而,大多数现有方法仍然受到对展览服装和分割掩模的依赖以及处理灵活姿势变化的能力的限制。这些限制降低了它们在现实场景中的实用性,例如,用户无法轻松地将一个人穿的衣服转移到另一个人身上,并且生成的试穿结果通常仅限于与参考图像相同的姿势 ...

0 0 0 0 2025/10/24 arXiv:2508.04559v1 lucian_p

虚拟试穿旨在合成穿着目标服装的人的真实图像,但准确建模服装与身体的对应关系仍然是一个持续的挑战,特别是在姿势和外观变化的情况下。在本文中,我们提出了 Voost - 一个统一且可扩展​​的框架,可通过单个扩散 Transformer 联合学习虚拟试穿和试穿。通过对这两个任务进行联合建模,Voost 使每个服装-人对能够监督两个方向,并支持对生成方向和服装类别的灵活调节,从而增强服装-身体关系推理,而无需特定于任务的网络、辅助损失或附加标签 ...

0 0 0 0 2025/10/24 arXiv:2508.04825v1 lucian_p

本文研究了从单目图像重建 3D 穿着人体的研究任务。由于单视图输入固有的模糊性,现有方法利用预先训练的 SMPL(-X) 估计模型或生成模型为人体重建提供辅助信息。然而,这些方法仅捕获一般的人体几何形状,而忽略了特定的几何细节,导致骨骼重建不准确、关节位置不正确以及布料皱纹不清晰 ...

0 0 0 0 2025/10/22 arXiv:2412.03103v1 lucian_p

近年来,大型语言模型(LLMS)迅速发展,诸如Chatgpt和DeepSeek之类的模型展示了它们在不同领域的非凡功能。尽管已经对各个领域的LLM进行了大量研究,但重点是与计算机辅助设计(CAD)集成的全面审查仍然没有。 CAD是3D建模的行业标准,在不同行业的产品的设计和开发中起着至关重要的作用 ...

0 0 0 0 2025/05/15 arXiv:2505.08137v1 lucian_p

现代软件中的原型计算机辅助设计(CAD)模型可能非常耗时。这是由于缺乏智能系统可以快速生成更简单的中间部分。我们提出了Text2CAD,这是第一个使用设计师友好的说明,用于所有技能水平的设计师友好的说明,用于生成文本到参数的CAD模型 ...

0 0 0 0 2025/05/15 arXiv:2409.17106v1 lucian_p

准确的状态估计是自主机器人的基本问题。为了实现局部准确且全球无漂移状态的估计,具有互补特性的多个传感器通常融合在一起。本地传感器(相机,IMU,LIDAR等)在一个小区域内提供精确的姿势,而全球传感器(GPS,磁力计,晴雨表等)提供嘈杂,但在大规模环境中无环形的定位 ...

0 0 0 0 2025/04/10 arXiv:1901.03642v1 lucian_p