图像表示通常是通过脱节的,特定于任务的协议来评估的,从而导致对模型功能的理解分散。例如,目前尚不清楚嵌入模型的图像是否熟悉聚类图像是否同样擅长检索一段文本的相关图像。我们介绍了庞大的图像嵌入基准(MIEB),以评估迄今为止最广泛的范围内图像和图像式嵌入模型的性能 ...
传统的推荐系统通过学习和强化过去的用户-项目交互而受到强大的反馈循环的影响,这反过来又限制了新的用户兴趣的发现。为了解决这个问题,我们引入了一种混合分层框架,llm)和用于用户兴趣探索的经典推荐模型。该框架通过“兴趣簇”控制llm和经典推荐模型之间的接口,其粒度可以由算法设计者明确确定... ...
本文介绍了我们启用配备单眼相机的无人机四极管的方法,以自主避免在非结构化和未知的室内环境中与障碍物发生碰撞。与地面车辆机器人避免障碍物相比,无人机导航带来了其他挑战,因为无人机运动不再限制在定义明确的室内地面或街头环境中。室内和室外环境中的水平结构,例如装饰物品,家具,吊扇,签名板,树枝等 ...
无人驾驶飞机(UAV)通常用于未知环境中的任务,在未知环境中可能无法使用确切的数学模型。本文提供了一个框架,用于使用加固学习,以允许无人机在这种环境中成功导航。我们进行了模拟和实际实施,以展示无人机如何成功学习在未知环境中导航 ...
广泛应用的大语言模型(LLM)可以产生类似人类的内容,从而引起人们对LLM滥用的担忧。因此,重要的是要构建强大的AI生成的文本(AIGT)检测器。当前工作仅考虑文档级AIGT检测,因此,在本文中,我们首先通过合成包含使用LLMS抛光的文档的数据集来引入句子级检测挑战,也就是说,文档包含人类编写的句子和LLMS修改的句子 ...
我们描述了一种新的生成对抗网络训练方法。关键思想是逐步增长生成器和鉴别器:从低分辨率开始,我们添加新的层,随着训练的进行,模型的细节越来越精细。这既加快了训练速度,又极大地稳定了训练 ...
从用户项目交互矩阵中恢复用户首选项是推荐系统的关键挑战。尽管扩散模型可以从潜在分布中采样和重建偏好,但它们通常无法有效地捕获相似用户的集体偏好。此外,潜在变量在正向过程中降低了纯高斯噪声,从而降低了信噪比,从而降低了性能 ...
故事可视化旨在生成一系列与文本中描述的故事相匹配的图像,并且需要生成的图像以满足高质量,与文本描述的一致性以及角色身份的一致性。鉴于故事可视化的复杂性,现有方法通过仅考虑几个特定字符和场景,或要求用户提供每图像控制条件(例如草图),从而大大简化了问题。但是,这些简化使这些方法无能为力 ...