大多数最先进的口语标识模型都是封闭式的。换句话说,他们只能从培训的一组课程中输出语言标签。但是,开放设定的口语标识系统可以获得检测输入何时没有任何原始语言的能力。在本文中,我们实施了一种新颖的方法来使用MFCC和音调功能,TDNN模型来提取有意义的功能嵌入,对SoftMax输出的置信度阈值以及LDA和PLDA进行学习来分类新的未知语言 ...
0 0 0 2025/02/10 arXiv:2308.14951v1 ziyu123
我们引入了mq-det,一种高效的架构和预训练策略设计,利用具有开放集泛化的文本描述和具有丰富描述粒度的视觉样本作为类别查询,即多模态查询对象检测,用于现实,用于现实世界检测具有开放词汇类别和各种粒度。mq-det将视觉查询合并到现有完善的仅语言查询检测器中。提出了一种基于冻结检测器的即插即用门控类可扩展感知器模块,以通过类视觉信息来增强类别文本... ...
0 0 0 2025/02/10 arXiv:2305.18980v2 riho
大型语言模型(LLMS)必须遵循具有详尽要求的说明(即以下复杂说明) ...
0 0 14 2025/02/10 arXiv:2404.15846v2 chuxin1457
实际上,用户在不同时期,地区,场景等方面都有不同的兴趣。这种兴趣的变化非常剧烈,以至于很难被推荐人捕获。现有的多域学习可以减轻此问题 ...
0 0 0 2025/02/10 arXiv:2501.14268v1 琦舞
我们提出了深度压缩自动编码器(DC-AE),这是一个新的自动编码器模型系列,用于加速高分辨率扩散模型。现有的自动编码器模型在适度的空间压缩比下表现出了令人印象深刻的结果(例如 ...
0 0 0 2025/02/10 arXiv:2410.10733v5 gubaobao
尽管遥感图像在有助于实现可持续发展目标和应对气候变化方面的广泛应用,但尚未受益于最近的多功能,任务不可知的视觉语言模型(VLMS)的进步。一个关键的原因是,对于遥感图像,仍然没有开发VLM所需的大规模,语义上不同的图像文本数据集。与自然图像不同,遥感图像及其相关的文本说明不能大规模从公共互联网上有效收集 ...
0 0 0 2025/02/10 arXiv:2312.12856v1 sceliay
扩散模型已成为一种强大的生成技术,并被发现适用于各种情况。大多数现有的基础扩散模型主要是为文本引导的视觉生成而设计的,并且不支持多模式条件,这对于许多视觉编辑任务至关重要。该限制阻止了这些基本扩散模型在视觉生成领域的统一模型,例如自然语言处理领域中的GPT-4 ...
0 0 0 2025/02/10 arXiv:2410.00086v2 wuyangecit
遥感视觉语言模型(RS VLM)在遥感(RS)图像理解的任务中取得了长足的进步。在多模式推理和多转向对话中表现良好,现有模型缺乏像素级的理解和与多图像输入的斗争。在这项工作中,我们提出了Rsunivlm,这是一种统一的端到端RS VLM,旨在跨多个粒度,包括图像级,区域级别和像素级任务,旨在全面的视觉理解 ...
0 0 0 2025/02/10 arXiv:2412.05679v2 sceliay

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)