连续语音中可自定义的关键字发现(KWS),由于其现实世界的应用潜力,引起了人们的关注。尽管对比度学习(CL)已被广泛用于提取关键字表示形式,但先前的CL方法都在预分段的隔离单词上运行,并且仅采用匹配策略的音频文本表示。但是,对于连续语音中的KW,共同发射和流词分割很容易为不同的文本产生相似的音频模式,因此可能会触发错误警报 ...
当前可用于强大自动语音识别(ASR)的前端包括掩盖和基于映射的深度学习方法来增强语音。最近提出的深度学习方法TOA PRIRESNR估计(称为DeepXi)能够以比目前基于掩盖的方法和基于映射的方法更高的质量和清晰度来产生增强的语音。在此激励的情况下,我们研究了Deep XI作为强大ASR的前端 ...
本文提出了将语音分离和增强(SSE)集成到ESPNET工具包中的最新进展。与以前的ESPNET-SE工作相比,已经添加了许多功能,包括近期最新的语音增强模型以及各自的培训和评估食谱。重要的是,已经设计了一个新界面,以灵活地将语音增强前端与其他任务相结合,包括自动语音识别(ASR),语音翻译(ST)和口语理解(SLU) ...
良好的自动语音识别(ASR)的端到端模型在先前的工作中尚未充分探索。借助端到端模型,可以选择使用语音增强技术预处理输入语音,并使用增强的语音训练模型。另一种选择是将嘈杂的演讲作为输入,并修改模型体系结构以适应嘈杂的语音 ...
本文介绍了一个新的开源平台,用于端到端的语音处理,名为ESPNET。 ESPNET主要关注端到端自动语音识别(ASR),并采用广泛使用的动态神经网络工具包,Chainer和Pytorch作为主要的深度学习引擎。 ESPNET还遵循Kaldi ASR工具包样式,用于数据处理,功能提取/格式以及配方,为语音识别和其他语音处理实验提供完整的设置 ...
我们介绍了Anyenhance,这是一种统一的生成模型,用于加强语音和唱歌声音。基于蒙版的生成模型,Anyenhance能够同时处理语音和唱歌声音,支持多种增强任务,包括DeNoising,dereverberation,降低,超级分辨率,超级分辨率和目标扬声器的提取,同时且无需精心调整。 Anyenhance引入了一种迅速的施用机制,以实现内在学习,该机制使该模型可以在本地接受参考扬声器的音色 ...
音频质量评估对于评估声音的感知现实主义至关重要。但是,获得“黄金标准”判断的时间和费用限制了此类数据的可用性。对于AR&VR,良好的可感知声音质量和来源的可本质性是确保完全沉浸在用户中的关键要素 ...
最近的语音言语增强最近取得了惊人的进步。但是,其性能受到单个麦克风可用的有限空间提示的限制。为了克服这一限制,我们引入了一种策略,将单声道语音映射到固定的模拟空间中,以更好地分化目标语音和噪声 ...
在嘈杂条件下,自动语音识别(ASR)系统的性能急剧降低。作为特征补偿步骤,显式失真建模(EDM)能够通过模拟清洁对应物中的内域嘈杂演讲来增强ASR系统。但是,现有的失真模型是不可验证的,也无法解释的,并且通常缺乏可控性和概括能力 ...
在过去的几年中,在语言,远见,言语和音频领域中见证了自我监督学习(SSL)的大量增长。虽然离散标签预测被广泛用于其他方式,但最先进的音频SSL模型仍采用重建损失进行预训练。与重建损失相比,语义丰富的离散标签预测鼓励SSL模型抽象高级音频语义,并像人类感知一样丢弃冗余细节 ...