个性签名 ...
随着实际应用中视频数据的爆炸式增长,视频的全面表示变得越来越重要。在本文中,我们解决了视频场景识别问题,其目标是学习高级视频表示来对视频中的场景进行分类。由于现实场景中视频内容的多样性和复杂性,这项任务仍然是一个挑战 ...
由于这些视觉数据中存在大量的局部冗余和复杂的全局依赖性,从图像和视频中学习判别性表示是一项具有挑战性的任务。卷积神经网络(CNN)和视觉变换器(ViT)是过去几年的两个主要框架。尽管 CNN 可以通过小邻域内的卷积有效地减少局部冗余,但有限的感受野使其难以捕获全局依赖性 ...
在本文中,我们介绍了 BeaverTails 数据集,旨在促进大型语言模型 (LLM) 中安全对齐的研究。该数据集独特地将问答对的有用性和无害性注释分开,从而为这些关键属性提供了不同的视角。总的来说,我们收集了 333,963 个问答 (QA) 对的安全元标签和 361,903 对专家比较数据的有用性和无害性指标 ...
在这项研究中,我们提出了 AniPortrait,这是一种新颖的框架,用于生成由音频和参考肖像图像驱动的高质量动画。我们的方法分为两个阶段。最初,我们从音频中提取 3D 中间表示并将其投影到一系列 2D 面部标志中 ...
模型大小、数据量、计算和模型性能的规律在自然语言处理(NLP)领域得到了广泛的研究。然而,光学字符识别 (OCR) 中的缩放定律尚未得到研究。为了解决这个问题,我们进行了全面的研究,包括检查文本识别领域的性能与模型规模、数据量和计算之间的相关性 ...