通常使用仅在非缺陷样本上训练的异常检测(AD)框架进行工业产品检查。尽管在生产过程中可能会收集有缺陷的样品,但是利用它们通常需要像素级注释,从而限制可伸缩性。为了解决这个问题,我们提出了AdClick,这是一种用于工业异常检测的交互式图像分割(IIS)算法 ...
MoE-TTS: Enhancing Out-of-Domain Text Understanding for Description-based TTS via Mixture-of-Experts
基于描述的文本到语音(TTS)模型在域内文本描述(即训练期间遇到的文本描述)上表现出强烈的性能 ...
最先进的(SOTA)半监督学习技术(例如FixMatch及其变体)在分类任务中表现出了令人印象深刻的性能。但是,这些方法不直接适用于回归任务。在本文中,我们提出了一种简单而有效的方法,它可以调整现有的半监督分类技术,以增强回归任务的性能 ...
我们研究服务LLM(大语言模型)请求的问题,每个请求都有异质性预填充和解码长度。在LLM服务中,预填充长度对应于输入提示长度,该长度确定了KV缓存中的初始内存使用情况。解码长度是指依次生成的输出 Token 数量,每个附加 Token 将KV CACHE存储器的使用增加一个单元 ...
Current video-based Masked Autoencoders (MAEs) primarily focus on learning effective spatiotemporal representations from a visual perspective, which may lead the model to prioritize general spatial-te ...
最近的基础模型能够使用统一的基本模型结构和多个专业模型组件来处理多个任务和多个数据模式。但是,由于复杂的模型体系结构以及不同任务和模式的异质工作负载,对这种多任务(MT)多模式(MM)模型的有效培训对系统挑战产生了重大挑战。在本文中,我们提出了纺锤体,这是一种全新的培训系统,该系统量身定制,该系统针对通过Wavefront Scheduling进行的MT MM模型进行资源有效和高性能培训 ...
视频理解是诸如行动识别,视频推理和机器人控制之类的任务至关重要的。基于大型视觉模型(LVLM)的早期视频理解方法通常采用无动态反馈的单次推理范式,从而限制了该模型在复杂场景中自我校正和适应的能力。最近的努力试图通过合并奖励模型和增强学习来增强推理或采用工具代理框架来解决这一局限性 ...
语言模型(LMS)功能强大,但主要用于文本生成任务。工具已大大提高了需要复杂技能的任务的性能。但是,许多作品以不同的方式采用“工具”一词,提出了一个问题:什么是工具?随后,工具在哪里以及如何帮助LMS?在本调查中,我们将工具的统一定义作为LMS使用的外部程序,并对LM工具方案和方法进行系统的审查 ...