本文介绍了funasr,这是一个开源语音识别工具包,旨在弥合学术研究和工业应用之间的差距。funasr提供在大规模工业语料库上训练的模型以及将它们部署到应用程序中的能力。该工具包的旗舰模型paraformer是一种非自回归端到端语音识别模型,已在包含60,000小时语音的手动注释普通话语音识别数据集上进行训练... ...
异常检测在检查工业图像中起着至关重要的作用。大多数现有方法都需要为每个类别提供单独的模型,从而导致部署成本倍增。这突出了为多类异常检测开发统一模型的挑战 ...
本文介绍了一种计算稀疏晶格计划器控制集的方法,该组合通过从代表性的车辆路径数据集中学习,适合特定任务。为此,我们使用类似于Fréchet距离的评分度量,并提出了一种根据评分度量评估给定控制集的算法。然后根据目标函数从密集的控制设置中选择控制动作,该目标函数在匹配数据集时奖励改进,同时也鼓励稀疏性 ...
段的任何模型(SAM)已成为图像分割中的一种变革性方法,以其可靠的零拍分段功能和灵活的提示系统而受到赞誉。但是,其性能受到质量退化的图像的挑战。在解决这一限制时,我们提出了强大的片段任何模型(RobustSAM),从而增强了SAM在低质量图像上的性能,同时保留其迅速性和零拍的概括 ...
现代AI的主要挑战是学会理解世界并在很大程度上通过观察来行动。本文探讨了一种自我监督的方法,该方法将互联网规模的视频数据与少量交互数据(机器人轨迹)结合在一起,以开发能够在物理世界中理解,预测和计划的模型。我们首先在一个视频和图像数据集上预先培训了无动作的联合预测架构V-JEPA 2,该架构包含超过100万小时的互联网视频 ...
传统上,使用自回归的大语言模型(LLM)解码,依次发生一个 Token 。新兴的工作线通过识别和同时生成语义独立的LLM响应块来探索并行解码。但是,这些技术依赖于与句法结构(如列表和段落)相关的手工制作的启发式方法,使其僵化和不精确 ...
在复杂的深层搜索场景中,检索增强的生成(RAG)系统具有需要多步推理和迭代信息检索的复杂搜索场景中的高级大语言模型(LLM)。但是,现有方法面临缺乏高质量训练轨迹的关键局限性或在模拟环境中的分布不匹配以及现实世界部署的高度计算成本。本文介绍了SimpleDeepsearcher,这是一个轻巧而有效的框架,它通过战略数据工程而不是复杂的培训范式弥合了这一差距 ...
我们提出了一种单发方法,可以实时从单个未介绍的图像(例如,面部肖像)推断和呈现一个逼真的3D表示 ...