图像字幕通常依赖于基于参考的自动评估,将机器字幕与人类编写的字幕进行比较。这与人类评估字幕质量的无参考方式形成对比。在本文中,我们报告了令人惊讶的实证发现,即 ...
赋予大型多模态模型(LMM)视觉基础能力可以显着增强人工智能对视觉世界的理解及其与人类的互动。然而,现有方法通常会微调 LMM 的参数,以学习额外的分割标记并过度拟合基础和分割数据集。这样的设计将不可避免地导致通用人工智能助手不可或缺的对话能力的灾难性削弱 ...
大型语言模型(llm)遵循指令的能力对于实际应用至关重要。尽管最近取得了进展,但一些研究强调,llm在面临具有挑战性的指令时会陷入困境,尤其是那些包含复杂约束的指令 ...
材料发现是研究的关键领域,具有彻底改变各种领域的潜力,包括碳捕获,可再生能源和电子产品。但是,化学空间的巨大规模使得在实验中探索所有可能的材料变得具有挑战性。在本文中,我们介绍了Flowllm,这是一种新颖的生成模型,结合了大型语言模型(LLM)和Riemannian流量匹配(RFM),以设计新型的晶体材料 ...
卷积神经网络能够从低级图像产生和恢复中的众多培训样本中学习现实的图像先验。我们表明,对于高级图像识别任务,我们可以通过利用内在批准归一化(BN)统计数据来进一步重建每个类别的“现实”图像,而无需任何培训数据。受流行的vae/gan方法的启发,我们将合成图像的零拍优化过程视为生成建模,以匹配BN统计的分布 ...
量化是减少神经网络的推理时间和记忆足迹的一种有前途的方法。但是,大多数现有的量化方法都需要访问原始培训数据集,以便在量化过程中进行重新培训。对于具有敏感或专有数据的应用程序通常是不可能的 ...
最近,大量研究集中在压缩和加速深度神经网络(DNN)上。到目前为止,高压率算法需要一部分训练数据集,以进行低精度校准或微调过程。但是,当数据不可用或包含敏感信息(如医学和生物识别用例中)时,此要求是不可接受的 ...
在过去十年中深入学习的潮流之后,自动语音识别(ASR)引起了很大的关注,导致出现了许多公开访问的ASR系统,这些系统正在积极地集成到我们的日常生活中。但是,由于各种关键的微妙之处,对这些ASR系统的公正和可复制的评估遇到了挑战。在本文中,我们介绍了SpeechColab排行榜,这是一个通用的开源平台,旨在ASR评估 ...