现实世界中的数据通常遵循长尾巴的分布,其中一些多数类别占据了大多数数据,而大多数少数族裔类别都包含有限数量的样本。分类模型最小化的跨凝结努力来代表和对尾部类别进行分类。尽管对学习公正的分类器的学习问题进行了充分的研究,但代表数据不平衡数据的方法却没有探索 ...
0 0 0 2025/07/01 arXiv:2207.09052v3 15966829631
在后深度学习时代, Transformer 架构在预训练的大模型和各种下游任务上展现了强大的性能。然而,这种架构巨大的计算需求让许多研究人员望而却步。为了进一步降低注意力模型的复杂性,人们做出了大量努力来设计更有效的方法... ...
0 0 0 2025/07/01 arXiv:2404.09516v1 boboshen
Mamba层提供了有效的选择性状态空间模型(SSM),该模型在建模多个域,包括NLP,远程序列处理和计算机视觉方面非常有效。选择性SSM被视为双重模型,其中一个人通过IO-Aware Paraleal扫描在整个序列上并行训练,并以自动回归方式部署。我们添加了第三种视图,并表明可以将这种模型视为注意力驱动的模型 ...
0 0 0 2025/07/01 arXiv:2403.01590v2 zjn_a
循环神经网络(rnn)在长序列上具有快速推理和高效扩展的能力,但它们难以训练且难以扩展。我们提出了hawk (一种具有门控线性递归的 rnn)和 ...
0 2 1 2025/07/01 arXiv:2402.19427v1 czvzb
状态空间模型 (SSM) 最近在大规模语言建模基准测试中向 Transformer 展示了具有竞争力的性能,同时实现了作为序列长度函数的线性时间和内存复杂性。最近发布的 SSM 模型 Mamba 在语言建模和长序列处理任务中都表现出了令人印象深刻的性能。同时,混合专家 (MoE) 模型表现出了卓越的性能,同时显着降低了推理的计算和延迟成本,但代价是占用了更大的内存占用 ...
0 0 0 2025/07/01 arXiv:2402.01771v1 zjn_a
状态空间模型(ssm)已成为顺序建模领域的有力竞争者,挑战了 Transformer 的主导地位。与此同时,专家(MOE)的混合物显着改进了基于 Transformer 的大型语言模型,包括最近最先进的开放模型。我们建议,为了释放ssm的扩展潜力,它们应该与,它们应该与 ...
0 1 0 2025/07/01 arXiv:2401.04081v2 boboshen
在这项工作中,我们将先前提出的离线空间网络扩展到静态和移动扬声器场景中的长期流媒体多通道语音增强。空间网络利用空间信息,例如语音的空间/转向方向,用于区分目标语音和干扰,并取得出色的性能。空间网络的核心是用于学习空间向量的时间动态的窄带自我发项模块 ...
0 0 0 2025/07/01 arXiv:2403.07675v2 zjn_a
超宽场荧光素血管造影(UWF-FA)可以使用荧光素钠的精确鉴定眼疾病,这可能是有害的。现有研究开发了从超宽场扫描激光眼镜检查(UWF-SLO)产生UWF-FA的方法,以减少与注射相关的不良反应。但是,这些方法在产生高质量的后期UWF-FA方面的有效性较差,尤其是在病变区域和细节中 ...
0 0 0 2025/07/01 arXiv:2409.00726v1 Rrrrr

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)