视觉语音识别(VSR)是仅在没有任何音频的情况下从视频输入中识别口语的任务。 VSR有许多应用程序作为辅助技术,尤其是如果可以将其部署在移动设备和嵌入式系统中。在资源约束环境中为VSR开发神经网络模型的主要障碍是密集的计算资源和大型内存足迹的需求 ...
检测现代大型语言模型生成的文本被认为很困难,因为 LLM 和人类都可以表现出各种复杂的行为。然而,我们发现基于对比两种密切相关的语言模型的分数在区分人类生成的文本和机器生成的文本方面非常准确。基于这种机制,我们提出了一种新颖的 LLM 检测器,只需要使用一对预先训练的 LLM 进行简单的计算 ...
过去的几年目睹了专业的大语言模型(LLM)推理系统,例如VLLM,Sglang,Mooncake和DeepFlow,以及通过Chatgpt等服务的快速LLM采用。推动这些系统设计工作是LLM请求处理的独特自回归性质,激发了获得高性能的新技术,同时保留了高量和高速工作量的高推理质量。尽管在整个文献中讨论了许多这些技术,但尚未在完整推理系统的框架下进行分析,也没有对系统本身进行分析和比较 ...
大型推理模型(LRM)(例如OpenAI O1和DeepSeek-R1)通过扩展测试时间计算并产生长期的思想链(COT),显示出了显着的推理功能。蒸馏 - 对LRMS生成的数据进行蒸馏训练 - 是增强较小模型的推理能力的一种直接而有效的方法,但面临着关键的瓶颈:我们发现,蒸馏的长COT数据对小型模型构成了学习困难,并导致偏见的继承(即 ...
随着语音合成技术的发展,用户对综合语音的自然性和表现性有更高的期望。但是先前的研究忽略了迅速选择的重要性。这项研究提出了基于检索功能(RAG)技术的文本到语音(TTS)框架,该框架可以根据文本内容动态调整语音样式,以实现更自然和生动的沟通效果 ...
在图像网等数据集上训练的神经网络已导致视觉对象分类的重大进展。一个阻止网络对复杂场景和情况更深入地推理的障碍,以及像人类一样将视觉知识与自然语言融为一体,是他们缺乏对物理世界的常识知识。与静态图像不同的视频包含有关物理世界的大量详细信息 ...
大型语言模型(LLM)通常因在各种任务上表现出近人类的表现而受到赞扬,并因其进行一般对话的能力而受到重视。但是,代理AI系统的兴起正在使用大量应用程序,其中语言模型重复执行少量专业任务,而差异很小。在这里,我们提出了这样一个立场,即小型语言模型(SLM)足够强大,本质上更合适,并且对于代理系统中的许多调用,并且是代理AI的未来 ...
(()来获得更好的性能。然而,这些手工制作的特征仅适用于具有足够几何结构的特定自然场景... ...