多模态大语言模型(MLLM)显着促进了视觉和文本理解的集成。然而,他们从多模式输入生成代码的能力仍然有限。在这项工作中,我们引入了 VisCodex,这是一个统一的框架,它无缝地融合了视觉和编码语言模型,使 MLLM 具有强大的多模式代码生成能力。利用基于任务向量的模型合并技术,我们将最先进的编码 LLM 集成到强大的视觉语言骨干中,同时保留视觉理解和高级编码技能。为了支持训练和评估,我们引入了多模态编码数据集 (MCD),这是一个包含 598k 样本的大规模且多样化的集合,包括高质量的 HTML 代码、图表图像代码对、图像增强的 StackOverflow QA 和算法问题。此外,我们提出了 InfiBench-V,这是一种新颖且具有挑战性的基准,专门用于评估视觉丰富的现实世界编程问题的模型,这些问题需要对文本和视觉上下文有细致入微的理解。大量实验表明,VisCodex 在开源 MLLM 中实现了最先进的性能,并接近 GPT-4o 等专有模型,突出了我们的模型合并策略和新数据集的有效性 ...

0 0 0 0 2025/11/25 arXiv:2508.09945v1 15966829631

在本文中,我们介绍了 Janus,一个统一多模态理解和生成的自回归框架。先前的研究通常依赖于单个视觉编码器来完成这两项任务,例如 Chameleon。然而,由于多模态理解和生成所需的信息粒度水平不同,这种方法可能会导致性能不佳,特别是在多模态理解中。为了解决这个问题,我们将视觉编码解耦到单独的路径中,同时仍然利用单个统一的转换器架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成方面的角色之间的冲突,而且还增强了框架的灵活性。例如,多模态理解和生成组件都可以独立选择最合适的编码方法。实验表明,Janus 超越了之前的统一模型,并且达到或超过了特定任务模型的性能。 Janus 的简单性、高度灵活性和有效性使其成为下一代统一多模式模型的有力候选者 ...

0 0 0 0 2025/11/25 arXiv:2410.13848v1 15966829631

稀疏专家混合 (MoE) 在神经机器翻译 (NMT) 方面取得了重大进展。然而,当前的 MoE 解决方案存在两个局限性,可能导致性能次优:1)它们直接将 NMT 的任务知识用于 MoE(\emph{例如,领域/语言学特定知识),这些知识在实际应用中通常不可用,并且忽略了自然分组的领域/语言属性; 2)专家选择仅依赖于局部的token表示,而不考虑上下文,充分掌握了全局视图中每个token的状态。为了解决上述限制,我们提出了 THOR-MoE,通过为 MoE 配备分层任务引导和上下文响应的路由策略。具体来说,1)首先预测领域/语言标签,然后提取混合领域/语言表示以分层方式分配任务级专家; 2)注入上下文信息以增强从预选任务级专家集中的 Token 路由,这可以帮助每个 Token 准确地路由到更专业和合适的专家。在不同架构的多领域翻译和多语言翻译基准上进行的大量实验一致证明了 THOR-MoE 的卓越性能。此外,THOR-MoE 作为即插即用模块运行,与现有的 Top-$k$~\cite{shazeer2017} 和 Top-$p$~\cite{huang-etal-2024-harder} 路由方案兼容,确保在不同的 MoE 架构中具有广泛的适用性。例如,与普通的 Top-$p$~\cite{huang-etal-2024-harder} 路由相比,上下文感知方式可以在多域翻译任务上以小于 22% 的激活参数实现 0.75 BLEU 的平均改进 ...

0 0 0 0 2025/11/24 arXiv:2505.14173v1 15966829631

参数高效微调(PEFT)方法在适应大型语言模型方面显示出前景,但现有方法表现出违反直觉的现象:将路由器集成到即时调整(PT)中可以提高训练效率,但不能普遍提高性能;通过矩阵分解减少参数可以提高特定领域的性能。受这些观察结果和 PT 模块化性质的启发,我们提出了 PT-MoE,这是一种新颖的框架,它将矩阵分解与专家混合 (MoE) 路由相结合,以实现高效的 PT。 17 个数据集的结果表明,PT-MoE 在问答 (QA) 和数学问题解决任务中均实现了最先进的性能,在 QA 任务中,F1 分数比 PT 提高了 1.49 分,比 LoRA 提高了 2.13 分,同时数学准确性比 PT 提高了 10.75 分,比 LoRA 提高了 0.44 分,同时使用的参数比 LoRA 少了 25%。我们的分析表明,虽然 PT 方法通常在 QA 任务中表现出色,在数学数据集中基于 LoRA 的方法表现出色,但 PT-MoE 中矩阵分解和 MoE 的集成产生了互补的好处:分解可以实现专家之间的高效参数共享,而 MoE 提供动态适应,共同使 PT-MoE 能够展示跨任务一致性和泛化能力。这些发现以及对路由机制和架构组件的消融研究为未来的 PEFT 方法提供了见解 ...

0 0 0 0 2025/11/24 arXiv:2505.09519v1 15966829631

专家混合 (MoE) 模型通过针对每个输入仅激活一部分专家来实现大型语言模型 (LLM) 的高效扩展。然而,我们观察到常用的辅助负载平衡损失往往会导致专家重叠和过于统一的路由,这阻碍了专家的专业化并降低了训练后的整体性能。为了解决这个问题,我们提出了一个简单而有效的解决方案,它引入了两个互补的目标:(1)正交性损失以鼓励专家处理不同类型的 Token ,以及(2)方差损失以鼓励更具区别性的路由决策。梯度级分析表明,这些目标与现有的辅助损失兼容,并有助于优化训练过程。各种模型架构和多个基准的实验结果表明,我们的方法显着增强了专家的专业化。值得注意的是,我们的方法改进了经典的 MoE 基线,辅助损失高达 23.79%,同时还保持下游任务中的负载平衡,无需任何架构修改或额外组件。我们将发布我们的代码来为社区做出贡献 ...

0 0 0 0 2025/11/24 arXiv:2505.22323v3 15966829631

大型语言模型 (LLM) 在帮助开发人员完成代码理解、生成和翻译等任务方面表现出了令人印象深刻的能力。支持多语言编程(即跨多种编程语言的编码任务)通常需要 (1) 跨所有编程语言微调单个 LLM,这具有成本效益,但会牺牲语言特定的专业化和性能,或者 (2) 为每种编程语言微调单独的 LLM,这允许专业化,但由于参数重复,计算成本昂贵且存储密集型。本文介绍了 MoLE(混合语言专家),这是一种平衡多语言编程效率和专业化的新颖架构。 MoLE 由基础模型、共享 LoRA(低秩适应)模块和特定于语言的 LoRA 模块的集合组成。这些模块在微调过程中进行联合优化,从而实现跨编程语言的有效知识共享和专业化。在推理过程中,MoLE 自动路由到与正在生成的代码 Token 的编程语言相对应的特定语言 LoRA 模块。我们的实验表明,与训练单独的特定语言 LoRA 相比,MoLE 实现了更高的参数效率,同时在准确性方面优于针对所有编程语言进行微调的单一共享 LLM ...

0 0 0 0 2025/11/24 arXiv:2506.18923v1 15966829631

在人工智能生成的图像检测中,当前的前沿方法通常通过部分参数微调来适应预先训练的基础模型。然而,这些方法通常很难推广到来自看不见的生成器的伪造,因为经过微调的模型仅从训练数据中捕获有限的模式,并且无法反映新模型不断演变的特征。为了克服这一限制,我们提出了图像自适应提示学习(IAPL),这是一种新颖的范例,可以根据每个测试图像动态调整输入编码器的提示,而不是在训练后修复它们。这种设计显着增强了鲁棒性和对各种伪造图像的适应性。动态提示通过轻量级的可学习缩放因子将条件信息与测试时自适应标记集成在一起。条件信息由条件信息学习器生成,它利用基于 CNN 的特征提取器对伪造特定条件和一般条件进行建模。通过在多个视图之间强制执行预测一致性,在单个样本的推理过程中优化测试时自适应 Token ,确保参数与当前图像对齐。对于最终决策,选择具有最高预测置信度的最佳输入。大量实验表明,IAPL 实现了最先进的性能,在广泛使用的 UniversalFakeDetect 和 GenImage 数据集上的平均准确率分别为 95.61% 和 96.7%。代码和权重将在此 https URL 上发布 ...

0 0 0 0 2025/11/24 arXiv:2508.01603v3 15966829631

许多商业和开源模型声称能够以极高的准确度(99% 或更高)检测机器生成的文本。然而,这些检测器很少在共享基准数据集上进行评估,即使在共享基准数据集上进行评估,用于评估的数据集也没有足够的挑战性——在采样策略、对抗性攻击和开源生成模型方面缺乏变化。在这项工作中,我们介绍了 RAID:用于机器生成文本检测的最大且最具挑战性的基准数据集。 RAID 包括超过 600 万代,涵盖 11 个模型、8 个域、11 种对抗攻击和 4 种解码策略。使用 RAID,我们评估了 8 个开源检测器和 4 个闭源检测器的域外和对抗鲁棒性,发现当前的检测器很容易被对抗性攻击、采样策略的变化、重复惩罚和看不见的生成模型所愚弄。我们将数据与排行榜一起发布,以鼓励未来的研究 ...

0 0 0 0 2025/11/20 arXiv:2405.07940v2 15966829631

大型语言模型 (LLM) 的快速发展增加了区分人类编写的文本和 LLM 生成的文本的难度。检测 LLM 生成的文本对于维护学术诚信、防止抄袭、保护版权和确保研究实践的道德至关重要。大多数先前关于检测 LLM 生成文本的研究主要集中在英语文本上。然而,具有不同形态和句法特征的语言需要专门的检测方法。它们独特的结构和使用模式可能会阻碍主要为英语设计的方法的直接应用。在这些语言中,我们重点关注韩语,与英语相比,韩语具有相对灵活的空格规则、丰富的词法系统以及逗号使用频率较低的语言。我们引入了 KatFish,这是第一个用于检测 LLM 生成的韩语文本的基准数据集。该数据集由人类编写的文本组成,由三个流派的四位 LLM 生成。通过检查空格模式、词性多样性和逗号的使用,我们阐明了人类书写的韩语文本和 LLM 生成的韩语文本之间的语言差异。基于这些观察,我们提出了 KatFishNet,一种专门为韩语设计的检测方法。与性能最佳的现有检测方法相比,KatFishNet 的 AUROC 平均提高了 19.78%。我们的代码和数据可在此 https URL 中获取 ...

0 0 0 0 2025/11/18 arXiv:2503.00032v5 15966829631

随着大型语言模型 (LLM) 的出现,人工文本和机器生成文本之间的界限变得越来越模糊。本文深入探讨了识别人类书写文本中可辨别且独特的语言属性的问题,特别是揭示文本表面结构之外的潜在话语结构。引入一种新颖的方法,我们利用分层解析树和递归超图来揭示 LLM 和人类生成的文本中独特的话语模式。实证研究结果表明,尽管 LLM 和人类都会产生受特定领域影响的不同话语模式,但人类书写的文本表现出更多的结构变异性,反映了不同领域中人类书写的微妙本质。值得注意的是,结合分层话语特征可以增强二元分类器在区分人类编写的文本和机器生成的文本方面的整体性能,即使是在分布外和释义的样本上也是如此。这强调了在文本模式分析中纳入分层话语特征的重要性。代码和数据集可从此 https URL 获取 ...

0 0 0 0 2025/11/18 arXiv:2402.10586v2 15966829631