我们介绍了 Moshi,一个语音-文本基础模型和全双工对话框架。 目前的语音对话系统依赖于独立组件的流水线,包括语音活动检测、语音识别、文本对话和文本转语音。
您的文件正在后台处理中,请前往顶部导航栏的 "我的上传 ☁️" 查看实时进度。