大型语言模型 (LLM) 在人工智能 (AI) 领域发挥着越来越重要的作用,不仅用于自然语言处理,还用于代码理解和生成。为了促进对代码 LLM 的开放和负责任的研究,我们引入了 The Stack,这是一个 3.1 TB 的数据集,由 30 种编程语言的许可源代码组成 ...
学术演示视频已成为研究交流的重要媒介,但制作它们仍然是高度劳动密集型的,通常需要数小时的幻灯片设计、录制和编辑 2 至 10 分钟的短视频。与自然视频不同,演示视频生成面临独特的挑战:研究论文的输入、密集的多模态信息(文本、图形、表格)以及协调多个对齐通道(例如幻灯片、字幕、语音和人类讲话者)的需要。为了应对这些挑战,我们推出了 PaperTalker,这是第一个包含 101 篇研究论文的基准测试,并配有作者创建的演示视频、幻灯片和演讲者元数据 ...
盛行文本对图像生成的自动回收(AR)模型依赖于重型,计算密集型扩散模型来处理连续的图像 Token ,或采用矢量量化(VQ)来获得具有量化损失的离散 Token 。在本文中,我们将自回归范式推向NextStep-1,这是14B自回归型号,配对157m流量匹配的头部,对离散文本 Token 进行训练以及连续的图像 Token ,并具有下一步的预测目标。 NextStep-1在文本到图像生成任务中实现自回归模型的最新性能,在高保真图像合成中表现出强大的功能 ...
多模式LLMS(MLLM)的迅速发展也提出了有效知识编辑的重大挑战。当前的方法,包括内在知识编辑和外部知识措施,每种方法都具有优势和劣势,在应用于MLLM时努力平衡可靠性,一般性和局部性的所需属性。在本文中,我们提出了一种新型的多式模式编辑方法,该方法建立了统一的观点和范式的固有知识编辑和外部知识措施 ...
多模式大语言模型(MLLM)容易出现非事实或过时的知识问题,由于多模式知识的复杂性,这可能表现为误读和错误识别错误。以前的基准测试尚未系统地分析编辑方法在纠正这两种错误类型时的性能。为了更好地表示和纠正这些错误,我们将多模式知识分解为其视觉和文本组件 ...
大型语言模型(LLMS)在不同任务中表现出不同的优势和劣势,促使最近的研究探讨了结合模型以利用其互补优势的好处。但是,现有的LLM结合方法通常会忽略模型的兼容性,并且在整个词汇量中的概率效率低下。在这项研究中,我们从经验上研究了影响集成绩效的因素,将模型性能,词汇量和响应样式确定为关键决定因素,揭示模型之间的兼容性对于有效的结合至关重要 ...
生成的AI图像的出现完全破坏了艺术界。区分AI产生的图像与人类艺术是一个具有挑战性的问题,其影响会随着时间的流逝而增长。无法解决这个问题的情况使坏演员欺骗了为人类艺术支付保费的人和所规定的政策禁止AI图像的公司 ...
大型人工智能模型(LAIM),特别是扩散模型和大型语言模型的快速发展,引发了人工智能生成的多媒体越来越多地全球化的各个方面的新时代。尽管这些内容在许多领域都有益,但也带来了重大风险,包括潜在的暴利、社会混乱和道德问题。,检测LAIM生成的多媒体整合至关重要,相关研究显着增加... ...
多模式的大语言模型(MLLM)在提出问题的任务中取得了令人印象深刻的成功,但是它们的空间理解能力却较少。这项工作调查了一个关键问题:现有的MLLM是否具有3D空间感知和理解能力?具体而言,我们在本文中做出了以下贡献:(i)我们引入了VGBench,这是一种专门用于评估视觉几何感知的MLLM的基准,例如 ...
将图表图像转换为可执行的绘图脚本,将脚本引用为图表到代码生成任务 - 重新定位多模式大语言模型(MLLMS),以执行精细的视觉解析,精确的代码综合和强大的跨模式推理。但是,此任务本质上是不受欢迎的:多个有效的代码实现可以产生相同的视觉图表,并且评估必须考虑各种维度的代码正确性和视觉保真度。这使得很难通过标准监督微调来学习准确且可推广的映射 ...