在现代大型语言模型(LLM)推理引擎中,改善时间率(TTFT)是一个重要的目标。优化TTFT可以直接导致更高的最大QP,并满足许多关键应用的要求。但是,众所周知,提高TTFT是具有挑战性的,因为它是由计算限制的,并且性能瓶颈从许多先前的作品专注于MLP部分的自我发作转变 ...
在实际应用程序中,自动语音识别(ASR)系统必须处理来自多个扬声器的重叠语音,并识别诸如技术术语之类的稀有词。传统方法分别解决了多样性ASR和上下文偏见,从而限制了复杂方案的性能。我们提出了一个统一的框架,该框架结合了多对话者的重叠语音识别和上下文偏见,将其构成一个任务 ...
专家的混合物(MOE)模型仅通过激活给定输入的专业专家的一部分来提供推断期间的计算效率。这可以在使用专家并行性的多GPU系统上进行有效的模型缩放,而不会损害性能。但是,专家和GPU之间的负载失衡会引入等待时间,这可能会大大增加推断潜伏期 ...
图像生成技术的快速发展加剧了对可解释和可解释的检测方法的需求。尽管现有的方法通常达到高精度,但它们通常是黑匣子,而无需提供人为理解的理由。多模式的大语言模型(MLLM)虽然最初旨在伪造检测,但具有强大的分析和推理能力 ...
端到端的学习方法为机器人操作提供了巨大的潜力,但是它们的影响受到不同实施方案的数据稀缺和异质性的限制。特别是,不同最终效果的各种动作空间为跨体验学习和技能转移创造了障碍。我们通过在潜在的动作空间中学到的扩散政策来应对这一挑战,该政策统一了各种最终效果行动 ...
点击率(CTR)预测是推荐和广告系统中的基本技术。最近的研究表明,实施多幕科建议有助于加强信息共享和改善整体绩效。但是,现有的多幕科模型仅考虑粗粒的显式场景建模,该模型取决于手动先验规则的预定义场景识别,该规则是有偏见且最佳选择的 ...
准确的医学图像分割对于疾病的诊断和治疗计划至关重要。卷积神经网络(CNN)已经实现了自动医疗图像分割的最先进性能。但是,他们仍然受到复杂条件的挑战,即分割目标具有较大的位置,形状和规模的变化,并且现有的CNN具有较差的解释性,从而限制了其在临床决策中的应用 ...
大型语言模型在文本处理中的成功激发了他们对语音建模的适应。但是,由于语音是连续且复杂的,因此通常将其离散为自回归建模。源自自我监督模型(称为语义 Token )的语音 Token 通常集中在语言方面,但忽略了韵律信息 ...