Transformer 主导了自然语言处理领域,最近还影响了计算机视觉领域。在医学图像分析领域,Transformers也成功应用于全栈临床应用,包括图像合成/重建、配准、分割、检测和诊断。我们的论文旨在提高 Transformers 在医学图像分析领域的认识和应用 ...
现有的视觉问答方法经常受到跨模式虚假相关性和过于简化的事件级推理过程的影响,无法捕获视频中的事件时间性、因果关系和动态。在这项工作中,为了解决事件级视觉问答的任务,我们提出了一个跨模式因果关系推理的框架。特别是,引入了一组因果干预操作来发现跨视觉和语言模式的潜在因果结构 ...