尽管人类进行面对面对话时会同时进行口头和非口头交流,但从文本中联合统一合成语音音频和共同语音 3D 手势运动的方法是一个新兴领域。这些技术为更加人性化、高效、富有表现力和强大的合成通信带来了巨大的希望,但目前由于缺乏合适的大型数据集而受到阻碍,因为现有的方法是在来自所有组成模式的并行数据上进行训练的。受学生-教师方法的启发,我们通过简单地合成额外的培训材料,提出了一种解决数据短缺的直接解决方案 . ...
将机器学习与几何推理相结合的神经渲染技术已成为从稀疏图像集中合成场景的新颖视图的最有前途的方法之一。其中,神经辐射场 (NeRF) 尤为突出,它训练深度网络将 5D 输入坐标(表示空间位置和观看方向)映射为体积密度和与视图相关的发射辐射。然而,尽管生成的图像达到了前所未有的真实感水平,NeRF 只适用于静态场景,可以从不同的图像中查询相同的空间位置 ...
尽管深度学习在视频理解任务中取得了成功,但处理视频中的每一帧的计算成本很高,而且在实时应用中通常是不必要的。帧选择旨在提取最具信息性和代表性的帧,以帮助模型更好地理解视频内容。现有的帧选择方法要么基于每帧重要性预测对帧进行单独采样,而不考虑帧之间的交互,要么采用强化学习代理连续寻找代表性帧,这训练成本很高,并可能导致潜在的稳定性问题 ...
随着深度学习在广泛应用中的快速进展和重大成功,它正在被应用于许多安全关键环境中。然而,最近发现深度神经网络容易受到精心设计的输入样本(称为对抗性样本)的影响。对抗性例子对人类来说是难以察觉的,但在测试/部署阶段很容易欺骗深度神经网络 ...
在客服技术支持中,快速、准确地检索相关历史问题对于高效解决客户咨询至关重要。大型语言模型 (LLM) 的检索增强生成 (RAG) 中的传统检索方法将过去问题跟踪单的大型语料库视为纯文本,忽略了关键的问题内结构和问题间关系,这限制了性能。我们引入了一种新颖的客户服务问答方法,将 RAG 与知识图 (KG) 相结合 ...
我们引入了思想图(GoT):一个框架,它可以提高大型语言模型(LLM)中的提示能力,使其超越思想链或思想树(ToT)等范式所提供的能力。 GoT 的关键思想和主要优点是能够将 LLM 生成的信息建模为任意图,其中信息单位(“LLM 思想”)是顶点,边对应于这些顶点之间的依赖关系。这种方法可以将任意的 LLM 思想组合成协同结果,提炼整个思想网络的本质,或使用反馈循环增强思想 ...
将语言模型 (LM) 调用链接为可组合模块正在催生一种新的编程方式,但确保 LM 遵守重要约束需要启发式“即时工程”。我们引入了 LM 断言,这是一种编程结构,用于表达 LM 应满足的计算约束。我们将我们的构造集成到最新的 LM DSPy 编程模型中,并提出新的策略,允许 DSPy 将带有 LM 断言的程序编译成更可靠和准确的系统 ...
一些 NLP 任务可以通过提供带有自然语言“任务描述”的预训练语言模型以完全无监督的方式解决(例如 Radford 等人) ...