CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications
Vision Transformers(VITS)以其 Token 混音器强大的全球环境能力标志着神经网络中的革命性进步。但是,成对 Token 的亲和力和复杂的矩阵操作将其部署限制在资源约束的方案和实时应用程序(例如移动设备)上,尽管在先前的工作中已经做出了巨大的努力。在本文中,我们介绍了CAS-VIT:卷积添加性自我发明视觉 Transformer ,以在移动应用程序中的效率和性能之间达到平衡 ...
检索增强生成(RAG)是一种有效的技术,使大型语言模型(LLM)能够利用外部知识源进行生成。然而,当前的 RAG 系统仅基于文本,无法利用在现实世界多模态文档中发挥关键作用的布局和图像等视觉信息。在本文中,我们介绍了 VisRAG,它通过建立基于视觉语言模型 (VLM) 的 RAG 管道来解决这个问题 ...
在地理分布式设置中运行的应用程序变得普遍。大规模的在线服务通常将其数据共享或复制到不同地理区域的多个数据中心(DC)。在这些应用程序的数据通信需求的驱动下,跨性别者网络(IDN)变得越来越重要 ...
光学特征识别(OCR)系统已在各种应用程序场景中广泛使用,例如Office Automation(OA)系统,工厂自动化,在线教育,地图制作等。但是,由于文本外观和计算效率的需求,OCR仍然是一项艰巨的任务。在本文中,我们提出了一个实用的超轻质OCR系统,即 ...
深度机器无法从训练的神经网络中“删除”其训练集的子集的问题。这个问题非常及时,并且有许多应用程序,包括删除偏见的关键任务(RB),解决混乱(RC)(由训练有素的模型中的错误数据引起),以及允许用户行使“忘记的权利”以保护用户隐私(UP)。据我们所知,本文是第一个研究不同应用程序(RB,RC,UP)的学习,并认为每个应用程序都有自己的Desiderata,“忘记”的定义以及相关的指标以忘记质量 .. ...
大语言模型的缩放大大改善了自然语言的理解,产生和推理。在这项工作中,我们开发了一个系统,该系统在Ascend 910 AI处理器和Mindspore框架的集群上训练了一万亿参数语言模型,并使用名为Pangu-{\ Sigma}的1.085T参数呈现语言模型 ...
我们解决了单位需求单建立贝叶斯环境中收入最佳确定性拍卖的复杂性,即当买方对项目的价值观时,最佳项目定价问题是独立的 ...
大型语言模型(LLM)通常包含误导性内容,强调需要使它们与人类价值观保持一致以确保安全的AI系统。从人类反馈(RLHF)中学习的强化学习已被用来实现这一路线。但是,它包括两个主要缺点:(1)与SFT相比,RLHF对超参数表现出复杂性,不稳定性和敏感性 ...