面部介绍在各种应用中很重要,例如照片修复,图像编辑和虚拟现实。尽管面部生成模型取得了重大进展,但确保在灌溉过程中保持一个人的独特面部身份仍然是一个难以捉摸的目标。当前的最新技术以Mystyle为例,需要资源密集的微调和每个新身份的大量图像 ...
0 0 0 2025/07/11 arXiv:2312.03556v1 哦吼
AI生成的图像(AIGIS),例如自然图像或面部图像,已经变得越来越重要但具有挑战性。在本文中,我们从一个新的角度开始,挖掘了AIGI检测中的失败概括的原因,名为\ textit {不对称现象},在那里,训练有素的探测器倾向于过分地过度适应有限和单调的假模式,从而使功能空间变得高度狭窄,并使其变得高度狭窄,并变得非常低落,这是一个非常有效的综合性,并具有明确的范围,并有效地构成了有效的范围。一种潜 ...
0 0 0 2025/07/11 arXiv:2411.15633v4 Hollowyuk
大型语言模型(LLMS)通过音频编解码器具有显着高级的音频处理,这些音频编解码器将音频转换为离散 Token ,从而使语言建模技术应用于音频数据。但是,传统的编解码器通常在高比特率或狭窄领域(例如语音)中运行,并且缺乏有效语言建模所需的语义线索。在解决这些挑战时,我们介绍了Semanticodec,这是一种新颖的编解码器,旨在将音频压缩为每秒不到一百个标记,包括语音,一般声音和音乐,而不会损害质量 ...
0 0 0 2025/07/11 arXiv:2405.00233v2 rosyclouds
分布式培训是通过多个GPU扩大深度学习模型训练的事实标准。它的性能瓶颈在于梯度同步的通信。尽管广泛观察到高张量的稀疏性,但仍缺少完全利用稀疏性的最佳通信方案 ...
0 0 0 2025/07/11 arXiv:2309.13254v2 mulanshine1
思维链 (CoT) 提示会引发大型语言模型 (LLM) 在得出最终答案之前产生一系列中间推理步骤。然而,当过渡到视觉语言模型(VLM)时,它们的纯文本原理很难表达与原始图像的细粒度关联。在本文中,我们提出了一种结合图像的多模态思维链,名为 \textbf{Interleaved-modal Chain-of-Thought (ICoT)},它生成由成对的视觉和文本基本原理组成的顺序推理步骤,以推断 ...
0 0 0 2025/07/11 arXiv:2411.19488v2 15021163060
新兴的AI加速器越来越多地采用晶圆尺度的制造技术,将成千上万的AI内核整合到基于网格的架构中,具有较大的分布芯片内存(总GB)和超高的芯片记忆带宽(数十个(数十个) pb/s)。但是,针对GPU等共享内存体系结构进行了优化的当前LLM推理系统,无法完全利用这些加速器。我们介绍Waferllm,这是第一个晶圆级LLM推理系统 ...
0 0 0 2025/07/11 arXiv:2502.04563v3 mulanshine1
将用户的自然语言查询(NL)转换为SQL查询(即NL2SQL)可以显着减少访问关系数据库的障碍并支持各种商业应用 ...
0 0 0 2025/07/11 arXiv:2408.05109v5 wonders
高质量的水下图像对于机器视觉任务和观众的美感都是必不可少的。水下图像增强(UIE)基于深度学习的方法已达到良好的性能。但是,考虑到人类的看法和解决方案空间中缺乏足够的约束,这些方法通常忽略了 ...
0 0 0 2025/07/11 arXiv:2507.06234v1 jiajia233

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)