模仿现实面部表情的能力对于从事情感人类机器人交流的人形机器人至关重要。但是,缺乏包含不同人形面部表情的数据集和适当的注释会阻碍现实的人形面部表达模仿。为了应对这些挑战,我们介绍了X2C(任何可以控制的东西),这是一个具有细微差别的面部表情的数据集,以实现逼真的人形生物模仿 ...
如今,大多数人造网络都依赖密集的表示,而生物网络依靠稀疏表示。在本文中,我们表明,只要基础维度足够高,稀疏表示对噪声和干扰的程度更大。我们开发的一个关键直觉是,稀疏矢量周围可操作体积的比例除以代表空间的体积,随着维度的指数缩小 ...
全球建模和关于区域之间关系的推理可能对图像和视频上的许多计算机视觉任务都是有益的。卷积神经网络(CNN)在通过卷积操作对局部关系进行建模方面表现出色,但它们通常在捕获遥远地区之间的全球关系并需要堆叠多个卷积层方面效率低下。在这项工作中,我们提出了一种新的方法,用于在全球范围内进行推理,其中一组特征在坐标空间上全球聚集,然后投影到可以有效计算关系推理的交互空间 ...
有监督微调(SFT)是增强大型语言模型(LLM)工具调用能力的常用方法,通常会合成训练数据。目前的数据合成流程一般是采样一组工具,根据这些工具制定需求,生成调用语句。然而,随机抽样的工具缺乏相关性,使得它们难以组合,从而降低了数据的多样性 ...
大型语言模型(LLM)和AI系统的最新进展导致了复杂AI工作流的设计和优化的范式转移。通过集成多个组件,复合AI系统已经越来越擅长执行复杂的任务。但是,随着这些系统的复杂性的增长,不仅要优化单个组件,而且还要优化它们的相互作用,就会出现新的挑战 ...
最近的研究强调,手动确保一种一致的响应方式并在训练集中保持高数据质量可以显着提高微调大语言模型(LLMS)的性能,同时减少所需的培训示例数量。但是,风格的确切定义以及样式,数据质量和LLM性能之间的关系尚不清楚。这项研究确定了响应中的两个关键风格元素:语言形式和教学惊人 ...
通过提示进行思维链 (CoT) 是从大型语言模型 (LLM) 中引出推理能力的事实上的方法。但这种额外的“思考”对于什么类型的任务真正有帮助呢?为了分析这一点,我们使用 CoT 进行了涵盖 100 多篇论文的定量荟萃分析,并对 14 个模型的 20 个数据集进行了我们自己的评估。我们的结果表明,CoT 主要在涉及数学或逻辑的任务上提供强大的性能优势,而在其他类型的任务上则获得较小的收益 ...
围绕大型语言模型(LLM)的安全问题已经进行了广泛的探索,但是多模式大语言模型(MLLMS)的安全性仍在研究中。在本文中,我们观察到多模式大语言模型(MLLM)可以通过查询相关的图像很容易被损害,就好像文本查询本身是恶意的一样。为了解决这个问题,我们介绍了MM-SafetyBench,这是一个综合框架,旨在对MLLM进行针对此类基于图像的操作的安全至关重要 ...