我们研究了在\ emph {sets}上定义的机器学习任务设计模型的问题。与在固定维矢量上操作的传统方法相反,我们考虑了在排列不变的集合中定义的目标功能。此类问题是普遍存在的,从对人口统计的估计\ cite {poczos13aistats},到堤防大坝的压力仪数据中的异常检测\ cite {jung15exploration},宇宙学到宇宙学\ cite \ cite \ cite {ntamp ...
0 0 0 2025/04/19 arXiv:1703.06114v3 flyaway
医学图像分割在推进疾病诊断和治疗计划的医疗系统中起着至关重要的作用。 U形体系结构(通常称为U-NET)已被证明在各种医学图像细分任务中已获得了非常成功的成功。但是,U-NET基于卷积的操作固有地限制了其有效建模远程依赖性的能力 ...
0 0 0 2025/04/19 arXiv:2310.07781v1 尼斯湖
文档问答(DOCQA)是一项非常普遍的任务。使用大语言模型(LLM)或大型视觉语言模型(LVLM)和检索增强生成(RAG)的现有方法通常优先考虑单个模式的信息,从而无法有效整合文本和视觉提示。这些方法在复杂的多模式推理方面遇到了困难,从而限制了它们在实际文档上的性能 ...
0 0 0 2025/04/19 arXiv:2503.13964v1 arthur
赋予大型多模态模型(LMM)视觉基础能力可以显着增强人工智能对视觉世界的理解及其与人类的互动。然而,现有方法通常会微调 LMM 的参数,以学习额外的分割标记并过度拟合基础和分割数据集。这样的设计将不可避免地导致通用人工智能助手不可或缺的对话能力的灾难性削弱 ...
0 0 0 2025/04/19 arXiv:2406.05821v3 Archer
检索增强生成 (RAG) 通过集成外部知识来增强大型语言模型 (LLM),以减少幻觉并合并最新信息,而无需重新训练。作为 RAG 的重要组成部分,外部知识库通常是通过使用光学字符识别 (OCR) 从非结构化 PDF 文档中提取结构化数据来构建的。然而,鉴于 OCR 的不完美预测以及结构化数据固有的非均匀表示,知识库不可避免地包含各种 OCR 噪声 ...
0 0 0 2025/04/19 arXiv:2412.02592v2 arthur
奖励建模已成为一种有希望的语言模型对齐方式的有前途的方法。但是,当代奖励模型(RMS)通常缺乏健壮性,将高质量,分布(OOD)样本的高奖励奖励。这可能会导致奖励黑客,政策利用意想不到的快捷方式来最大程度地提高奖励,从而破坏了一致性 ...
0 0 0 2025/04/19 arXiv:2504.06141v2 zhouzhou312
最新的语义细分方法采用了具有编码器架构的完全跨跨趋义网络(FCN)。编码器逐渐减少了空间分辨率,并通过更大的接收场来学习更多抽象/语义视觉概念。由于上下文建模对于分割至关重要,因此最新的努力集中在通过扩张/严重的卷积或插入注意力模块来增加接受场 ...
0 0 0 2025/04/19 arXiv:2012.15840v3 尼斯湖
有效的对话代理必须能够个性化其行为,以适合用户的偏好,个性和属性,无论他们是在撰写任务还是在教育或医疗保健等领域中运行。当前的培训方法,例如从人类反馈中学习(RLHF)的强化学习优先级的帮助和安全性,但在促进真正的善解人意,适应性和个性化互动方面缺乏。传统的个性化方法通常依赖于广泛的用户历史记录,从而限制了新的或上下文有限的用户的有效性 ...
0 0 0 2025/04/19 arXiv:2504.03206v1 zhouzhou312

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)