在本文中,我们提出了一种新颖的端到端用户定义的关键字发现方法,该方法利用语音和文本序列之间的语言相应模式。与以前需要语音关键字注册的方法不同,我们的方法将输入查询与注册文本关键字序列进行比较。为了将音频和文本表示形式放置在一个共同的潜在空间中,我们采用了一种基于注意力的跨模式匹配方法,该方法以端到端的方式进行了训练,并具有单调匹配的损失和关键字分类损失 ...
开放的词汇关键字发现是自动语音识别(ASR)的一项至关重要且具有挑战性的任务,该任务侧重于检测语音中的用户定义的关键字。关键字发现方法通常将音频话语和关键字映射到联合嵌入空间中,以获得一些亲和力得分。在这项工作中,我们提出了ADAKWS,这是一种用于关键字发现的新方法,其中对文本编码器进行了训练以输出关键字条件条件的标准化参数 ...
这项研究提出了一种新颖的零击用户定义的关键字点斑点模型,该模型利用关键字的音频 - 音频关系来提高性能。与先前在话语级别估计的方法不同,我们同时使用语音和音素级别的信息。我们提出的方法包括在各种发音环境中高性能的两流语音编码器结构,基于自我注意的模式提取器以及高性能的音素级检测损失 ...
我们介绍了视觉为洛拉(Vora),这是一种将LLM转化为MLLM的新型范式。与依靠外部视觉模块进行视觉编码的普遍的MLLM体系结构不同,Vora通过将特定于视觉的Lora层直接集成到LLM中,从而内在视觉能力。该设计使添加的参数在推断过程中可以无缝合并到LLM中,从而消除了结构复杂性并最大程度地减少了计算开销 ...
关键字斑点(KWS)对于语音驱动应用程序至关重要,要求准确性和效率。基于ASR的传统KWS方法(例如贪婪和梁搜索)探索整个搜索空间,而无需明确优先考虑关键字检测,通常会导致次优性能。在本文中,我们通过引入带有流媒体的CTC-Transducer兼式框架 - 轴承系统,提出了一个有效的特定关键字的KWS框架,该框架具有多头框架 - 同步解码(MFA-KWS) ...
为了回应对跨各个领域的人类机器交流的日益兴趣,本文介绍了一种名为iphonmatchnet的新方法,该方法解决了驳船中场景的挑战,其中用户语音与设备播放音频重叠,从而造成了自我引用问题。提出的模型利用了隐式声学回声取消(IAEC)技术来提高用户定义的关键字发现模型的效率,与基线模型相比,型号大小(0.13%)的平均绝对误差降低了95%,平均绝对误差的降低显着降低,而模型大小(0.13%) ...
对于基于文本注册的开放式摄影关键字点(KWS),通常在音素或话语级别上比较声学和文本嵌入。为了促进这一点,我们使用深度度量学习(DML)优化声学和文本编码器,从而可以直接比较共享嵌入空间中的多模式嵌入。但是,音频和文本方式之间的固有异质性提出了重大挑战 ...
连续语音中可自定义的关键字发现(KWS),由于其现实世界的应用潜力,引起了人们的关注。尽管对比度学习(CL)已被广泛用于提取关键字表示形式,但先前的CL方法都在预分段的隔离单词上运行,并且仅采用匹配策略的音频文本表示。但是,对于连续语音中的KW,共同发射和流词分割很容易为不同的文本产生相似的音频模式,因此可能会触发错误警报 ...
当前可用于强大自动语音识别(ASR)的前端包括掩盖和基于映射的深度学习方法来增强语音。最近提出的深度学习方法TOA PRIRESNR估计(称为DeepXi)能够以比目前基于掩盖的方法和基于映射的方法更高的质量和清晰度来产生增强的语音。在此激励的情况下,我们研究了Deep XI作为强大ASR的前端 ...
本文提出了将语音分离和增强(SSE)集成到ESPNET工具包中的最新进展。与以前的ESPNET-SE工作相比,已经添加了许多功能,包括近期最新的语音增强模型以及各自的培训和评估食谱。重要的是,已经设计了一个新界面,以灵活地将语音增强前端与其他任务相结合,包括自动语音识别(ASR),语音翻译(ST)和口语理解(SLU) ...