大型推理模型(LRM)(例如OpenAI O1和DeepSeek-R1)通过扩展测试时间计算并产生长期的思想链(COT),显示出了显着的推理功能。蒸馏 - 对LRMS生成的数据进行蒸馏训练 - 是增强较小模型的推理能力的一种直接而有效的方法,但面临着关键的瓶颈:我们发现,蒸馏的长COT数据对小型模型构成了学习困难,并导致偏见的继承(即 ...
0 0 0 2025/07/02 arXiv:2503.01461v2 chaojijiayou
随着语音合成技术的发展,用户对综合语音的自然性和表现性有更高的期望。但是先前的研究忽略了迅速选择的重要性。这项研究提出了基于检索功能(RAG)技术的文本到语音(TTS)框架,该框架可以根据文本内容动态调整语音样式,以实现更自然和生动的沟通效果 ...
0 0 0 2025/07/02 arXiv:2504.10309v1 Du
在图像网等数据集上训练的神经网络已导致视觉对象分类的重大进展。一个阻止网络对复杂场景和情况更深入地推理的障碍,以及像人类一样将视觉知识与自然语言融为一体,是他们缺乏对物理世界的常识知识。与静态图像不同的视频包含有关物理世界的大量详细信息 ...
0 0 0 2025/07/02 arXiv:1706.04261v2 HHDS
大型语言模型(LLM)通常因在各种任务上表现出近人类的表现而受到赞扬,并因其进行一般对话的能力而受到重视。但是,代理AI系统的兴起正在使用大量应用程序,其中语言模型重复执行少量专业任务,而差异很小。在这里,我们提出了这样一个立场,即小型语言模型(SLM)足够强大,本质上更合适,并且对于代理系统中的许多调用,并且是代理AI的未来 ...
0 0 0 2025/07/02 arXiv:2506.02153v1 garming
(()来获得更好的性能。然而,这些手工制作的特征仅适用于具有足够几何结构的特定自然场景... ...
0 0 0 2025/07/02 arXiv:2302.08207v2 study
仇恨的模因检测是由于解释模因中的隐性仇恨信息和上下文提示的复杂性,因此提出了一个重大挑战作为多模式任务。先前的方法具有微调的预训练的视觉模型(PT-VLM),利用它们在训练期间获得的知识及其注意力机制来理解模因含量。但是,这些模型对隐性知识和复杂的注意机制的依赖使他们的决定难以解释,这对于建立对模因分类的信任至关重要 ...
0 0 0 2025/07/02 arXiv:2502.11073v1 chillax
在许多应用中,破译人类的行为以预测其未来的道路/轨迹及其从视频中所做的事情很重要。受这个想法的促进,本文研究了与未来活动共同预测行人的未来道路。我们提出了一个端到端的多任务学习系统,利用有关人类行为信息的丰富视觉特征以及与周围环境的互动 ...
0 0 0 2025/07/02 arXiv:1902.03748v3 weanhear
非理论推动将目标移动并重新定向对象是一种多功能机车操作技能。在现实世界中,对象的物理特性和地板的摩擦包含重大的不确定性,这使得任务对移动操纵器有挑战。在本文中,我们为移动操纵器开发了一个基于学习的控制器,以通过一系列推动操作将未知对象移动到所需的位置和偏航方向 ...
0 0 0 2025/07/02 arXiv:2502.01546v1 yydsdsyy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)