无分类器引导(CFG)已成为提高条件扩散模型质量的标准方法。然而,采用 CFG 需要与主扩散模型一起训练无条件模型,或者通过定期插入空条件来修改训练过程。 CFG 也没有明确扩展到无条件模型 ...
弱监督时间动作定位(WTAL)旨在仅使用视频级注释来检测未修剪视频中的动作实例。由于许多现有的工作基于动作分类标签来优化WTAL模型,因此它们遇到了任务差异问题(即) ...
专家混合 (MoE) 是一种神经网络架构,它将稀疏激活的专家块添加到基本模型中,从而在不影响计算成本的情况下增加参数数量。然而,当前的分布式深度学习框架在使用大型基础模型训练高质量 MoE 模型的能力方面受到限制。在这项工作中,我们提出了 DeepSpeed-TED,这是一种新颖的三维混合并行算法,它结合了数据、张量和专家并行性,能够使用比当前状态大 4 到 8 倍的基本模型来训练 MoE 模型。 ...
弱监督动作定位旨在识别和定位仅具有视频级标签的未修剪视频中的动作实例。大多数现有模型依赖于多实例学习(MIL),其中通过对标记包进行分类来监督未标记实例的预测。基于 MIL 的方法得到了相对充分的研究,在分类方面取得了令人信服的性能,但在定位方面却没有 ...
时态知识图(TKG)推理通常涉及沿着时间线完成缺失的事实元素。尽管现有方法可以通过整合时间信息来学习四元组中每个事实元素的良好嵌入,但它们通常无法推断时间事实的演变。这主要是因为(1)没有充分探索各个四元组内的内部结构和语义关系;(2)没有充分学习不同四元组之间上下文和时间相关性的统一表示 ...
细粒度的工作负载和资源平衡是 GPU 上定期和不定期计算高性能的关键。在本论文中,我们对现有的负载平衡技术进行了广泛的调查,以构建一个抽象来解决在 GPU 上调度计算的困难。我们提出了一种 GPU 细粒度负载平衡抽象,它将负载平衡与工作处理分离,旨在通过可编程接口支持静态和动态调度,以实现新的负载平衡调度 ...
检索增强生成(RAG)已在许多场景中应用,以利用检索器提供的外部文档来增强大型语言模型(LLM)。然而,由于训练目标和架构的差异, LLM 和检索器之间存在语义差距。这种不一致迫使 LLM 被动接受检索者提供的文档,导致生成过程中的不理解, LLM 肩负着利用其固有知识区分这些文档的任务 ...
检索增强语言模型(RALM)在知识密集型任务中表现出强大的性能和广泛的适用性。然而,由于 RALM 容易产生不忠实的输出,包括毫无根据的信息或与检索到的上下文相矛盾,因此存在严重的可信度问题。本文提出了 SynCheck,这是一种轻量级监控器,它利用细粒度解码动态,包括序列似然、不确定性量化、上下文影响和语义对齐来同步检测不忠实句子 ...