序列建模的中心目标是设计一个单一原则模型,该模型可以跨一系列模式和任务处理序列数据,特别是在长期依赖性方面。尽管包括 RNN、CNN 和 Transformer 在内的传统模型都有专门的变体来捕获长依赖性,但它们仍然难以扩展到 10000 美元或更多步骤的超长序列。最近一种有前途的方法提出了通过模拟基本状态空间模型(SSM)来建模序列\(x'(t)= Ax(t)+ Bu(t),y(t)= Cx(t ...
0 0 0 2024/04/18 arXiv:2111.00396v3 boboshen
我们介绍了 VASA,这是一个框架,可以在给定单个静态图像和语音音频剪辑的情况下生成具有吸引人的视觉情感技能 (VAS) 的逼真说话面孔。我们的首屈一指的模型 VASA-1 不仅能够产生与音频完美同步的嘴唇运动,还能捕捉大量面部细微差别和自然头部运动,有助于感知真实性和活力。核心创新包括在面部潜在空间中工作的整体面部动态和头部运动生成模型,以及使用视频开发这种富有表现力和解开的面部潜在空间 ...
0 0 0 2024/04/18 arXiv:2404.10667v1 asa123
YOLO系列最新版本YOLOv9的推出,使其在各种场景中得到广泛应用。本文首次将YOLOv9算法模型应用到计算机辅助诊断(CAD)的骨折检测任务中,以帮助放射科医生和外科医生解读X射线图像。具体来说,本文在 GRAZPEDWRI-DX 数据集上训练模型,并使用数据增强技术扩展训练集以提高模型性能 ...
0 0 0 2024/04/18 arXiv:2403.11249v1 soloj
Segment Anything Model (SAM) 是一种在大规模数据集上预训练的深度视觉基础模型,打破了一般分割的界限,并激发了各种下游应用。本文介绍了 Hi-SAM,这是一种利用 SAM 进行分层文本分割的统一模型。 Hi-SAM 擅长跨四个层次的文本分割,包括笔画、单词、文本行和段落,同时还实现布局分析 ...
0 0 0 2024/04/18 arXiv:2401.17904v1 cyn
现有的视觉问答方法经常受到跨模式虚假相关性和过于简化的事件级推理过程的影响,无法捕获视频中的事件时间性、因果关系和动态。在这项工作中,为了解决事件级视觉问答的任务,我们提出了一个跨模式因果关系推理的框架。特别是,引入了一组因果干预操作来发现跨视觉和语言模式的潜在因果结构 ...
0 0 0 2024/04/18 arXiv:2207.12647v8 LShang
扩散模型在文本到图像生成领域取得了巨大成功。然而,减轻文本提示和图像之间的错位仍然具有挑战性。未对准背后的根本原因尚未得到广泛调查 ...
0 0 0 2024/04/17 arXiv:2404.03653v1 fly1642
AIOps 领域正在利用 AI 和 ML 的力量改变 IT 格局。尽管面临标签数据有限的挑战,但监督模型显示出了希望,强调了利用标签进行训练的重要性,尤其是在深度学习环境中。这项研究通过引入日志异常分类法并探索自动数据标记以减轻标记挑战来增强该领域 ...
0 0 0 2024/04/17 arXiv:2312.14748v1 1974569057
传统的通道修剪方法通过减少网络通道来有效地修剪具有深度卷积层和某些高效模块(例如流行的反向残差块)的高效 CNN 模型。由于一些归一化层的存在,先前通过减少网络深度的深度剪枝方法不适合剪枝一些高效模型。此外,通过直接删除激活层来微调子网会破坏原始模型权重,阻碍剪枝后的模型实现高性能 ...
0 0 0 2024/04/17 arXiv:2401.06426v1 Benjam1n

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)