最近,基于流量匹配的语音合成显着提高了综合语音的质量,同时减少了推理步骤的数量。在本文中,我们介绍了Slimspech,这是基于整流流的轻巧有效的语音合成系统。我们已经基于使用整流流模型的现有语音合成方法,修改了其结构以减少参数并用作教师模型 ...
文本到语音(TTS)技术已经为语言广泛取得了令人印象深刻的结果,但是许多资源不足的语言仍然受到有限的数据和语言复杂性的挑战。在本文中,我们提出了一种新颖的方法,该方法将数据优化的框架与先进的声学模型集成在一起,以构建用于低资源场景的高质量TTS系统。我们证明了使用泰语作为一种说明性的案例,我们证明了我们的方法的有效性,其中复杂的语音规则和稀疏资源得到了有效解决 ...
我们介绍了交互式场景探索的新颖任务,其中机器人自主探索环境并产生一个由动作条件的场景图(ACSG)捕获基础环境的结构。 ACSG在场景中既说明了低级信息(几何和语义)以及高级信息(不同实体之间的动作条件关系)。为此,我们介绍了机器人探索(RoboExp)系统,该系统结合了大型多模式(LMM)和明确的内存设计,以增强系统的功能 ...
场景图捕获了对象之间的复杂关系,作为内容生成和操纵的强大先验。然而,无论是添加节点还是修改边缘,合理地操纵场景图 - 仍然是一项具有挑战性且没有触及的任务。诸如将节点添加到图形或有关节点与所有其他关系的关系的推理之类的任务在计算上是棘手的,因为即使是单个边缘修改也可能触发冲突,因为图形中的复杂相互依赖性 ...
LLM在某些安全任务和CTF挑战中表现出了初步的承诺。但是,目前尚不清楚LLM是否能够实现多阶段网络攻击,这涉及在多个主机上执行各种动作,例如进行侦察,利用漏洞来获得初始访问,利用内部主机横向移动,并使用多个损害的主机来驱逐数据。我们评估了10个多阶段网络的LLM,发现流行的LLM无法实现这些攻击 ...
大型语言模型(LLM)代理人越来越能够自主进行网络攻击,对现有应用构成了重大威胁。这种日益增长的风险凸显了迫切需要进行现实世界中的基准评估LLM代理利用Web应用程序漏洞的能力。但是,现有的基准缺乏,因为它们仅限于抽象的捕获国旗竞赛或缺乏全面的覆盖范围 ...
SGD在 Transformer 上的显着余量比亚当的表现要差,但原因尚不清楚。在这项工作中,我们通过Hessian的镜头提供了一种解释:(i) Transformer 是“异质性”:参数块跨参数块的Hessian频谱差异很大,我们称之为“块异质性”的现象; (ii)异质性HAMPERS SGD:SGD在块异质性问题上的表现要比Adam差。为了验证(i)和(ii),我们检查了各种 Transfor ...
自主驾驶评估需要密切复制实际道路状况的模拟环境,包括现实世界的感觉数据和反应反馈循环。但是,许多现有的模拟需要预测公共数据集或综合影像学数据上的固定路线,\ ie,开环模拟通常缺乏评估动态决策的能力。尽管闭环模拟的最新努力提供了反馈驱动的环境,但它们无法处理视觉传感器输入或产生与现实数据不同的输出 ...