大型语言模型(LLMS),例如Llama,羊驼,Vicuna,GPT-3.5和GPT-4,已将AI系统在各种自然语言处理任务上的性能提高到类似人类的水平。但是,在执行逻辑推理时,它们的概括和鲁棒性尚未得到充分评估 ...
大型语言模型(LLMS)在自动代码生成中表现出了令人鼓舞的性能,尤其是在简单任务中出色的,例如生成独立代码。与简单任务不同,现实世界代码的生成通常取决于特定的编程环境(例如 ...
预测周围代理的未来运动对于自动驾驶汽车(AV)在动态的,人类固定的环境中安全运行至关重要。但是,大规模驾驶数据集的稀缺性阻碍了健壮且可推广的运动预测模型的发展,从而限制了它们捕获复杂相互作用和道路几何形状的能力。受自然语言处理(NLP)和计算机视觉(CV)的最新进展的启发,自学学习(SSL)在运动预测社区中引起了人们的重大关注,以学习丰富且可转移的场景表示 ...
提出并在上混合应用中评估了用于初级验证分解的几何动机方法。该方法由两个步骤组成,可容纳特别直观的解释。第一步由应用于输入立体声场景上的信号自适应旋转组成,该旋转将主要的声源转化为旋转场景的中心 ...
将歌曲分为声音和伴奏组成部分是一个积极的研究主题,近年来,使用深度学习技术的监督培训表现出了提高的表现。我们建议应用与歌手声乐活动相对应的视觉信息,以进一步提高分离的声音信号的质量。视频前端模型采用了口腔运动的输入,并将其融合到基于音频的分离框架的特征嵌入中 ...
我们提出Text2ROOM,这是一种从给定文本提示作为输入中生成房间尺度纹理的3D网格的方法。为此,我们利用预先训练的2D文本对图像模型来合成来自不同姿势的一系列图像。为了将这些输出提高到一致的3D场景表示形式中,我们将单眼深度估计与文本条件结合了 ...
尽管大型语言模型(LLM)在科学任务中表现出了非凡的功能,但现有的评估框架主要使用丰富的上下文输入来评估其性能,从而忽略了他们从最小信息中产生新思想的能力。我们介绍了LiveIdeAbench,这是一个全面的基准,它使用单键字提示来评估LLMS的科学创造力和不同的思维能力。从吉尔福德的创造力理论中,我们的框架采用了最先进的LLM的动态小组来评估跨四个关键维度的生成的想法:原创性,可行性,流利性和灵 ...
由于中国NLP社区的持续努力,越来越多的中国机器阅读理解数据集可用。为了在本文中增加该领域的多样性,我们提出了一项名为“句子”式机器阅读理解理解(SC-MRC)的新任务。拟议的任务旨在将正确的候选句子填充到有几个空白的段落中 ...