我们提出了一种简单有效的架构,用于细粒的视觉识别,称为双线性卷积神经网络(B-CNN)。这些网络将图像表示为从两个CNN衍生的特征的汇总外部产品,并以翻译不变的方式捕获局部特征交互。 B-CNN属于无订单纹理表示的类别,但与先前的工作不同,它们可以以端到端的方式进行培训 ...
0 0 0 2025/06/08 arXiv:1504.07889v6 SGN001
关键字斑点(KWS)对于语音驱动应用程序至关重要,要求准确性和效率。基于ASR的传统KWS方法(例如贪婪和梁搜索)探索整个搜索空间,而无需明确优先考虑关键字检测,通常会导致次优性能。在本文中,我们通过引入带有流媒体的CTC-Transducer兼式框架 - 轴承系统,提出了一个有效的特定关键字的KWS框架,该框架具有多头框架 - 同步解码(MFA-KWS) ...
0 0 0 2025/06/08 arXiv:2505.19577v2 wenwen
对于多转对话的重写,有效地建模对话环境中语言知识并摆脱噪音的能力对于提高其性能至关重要。现有的细心模型会注意所有单词,而没有事先重点,这导致对某些可用单词的注意力不准确。在本文中,我们建议使用语义角色标签(SRL),该标签(SRL)强调了谁对谁做了谁,为重写器模型提供了其他指导 ...
0 0 0 2025/06/08 arXiv:2010.01417v1 oriyiyi
众所周知,nlp)中流行的监督学习方法需要大量数据 ...
0 0 0 2025/06/08 arXiv:2310.19596v2 cocoder
像 GPT-4o 这样的实时大型多模态模型 (LMM) 的出现引发了人们对高效 LMM 的极大兴趣。 LMM 框架通常将视觉输入编码为视觉标记(连续表示),并将它们和文本指令集成到大型语言模型 (LLM) 的上下文中,其中大规模参数和大量上下文标记(主要是视觉标记)会导致大量的计算开销。之前对高效 LMM 的努力总是集中在用更小的模型替换 LLM 主干,而忽略了 Token 数量的关键问题 ...
0 0 0 2025/06/08 arXiv:2501.03895v2 cwd
在个性化产品搜索中,估算点击率(CTR)是一项至关重要但又具有挑战性的任务。但是,由于以下三个挑战,包括如何更有效地提取用户对多个方面的短期利益,如何提取和融合用户的长期利益与短期利益,如何解决长期和短期利益的纠缠特征。为了解决这些挑战,在本文中,我们提出了一种名为层次兴趣融合网络(HIFN)的新方法,该方法由四个基本模块组成,即短期利益提取器(SIE),长期利益提取器(LIE),利息融合模块(I ...
0 0 0 2025/06/08 arXiv:2304.02089v1 zhangyuepeng
我们解决了序列到序列((Seq2Seq)学习中的一个重要问题,称为复制,其中输入序列中的某些片段被选择性地复制到输出序列中。在人类语言交流中也可以观察到类似的现象。例如,人类倾向于在对话中重复实体名称甚至长短语... ...
0 0 0 2025/06/08 arXiv:1603.06393v3 lockee
在不同的无线网络方案中,多个网络实体需要合作,以便以最小的延迟和能源消耗来实现共同的任务。未来的无线网络要求在动态和不确定的环境中交换高维数据,因此实施通信控制任务变得具有挑战性且高度复杂。通过紧急沟通(EC-MARL)的多代理增强学习是一种有前途的解决方案,可以以合作的方式解决部分可观察到的状态的高维连续控制问题,在该问题中,代理人建立了一个新兴的沟通协议来解决复杂的任务 ...
0 0 0 2025/06/08 arXiv:2309.06021v1 little_mac

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)