长期以来,需要使用扩散模型生成准确的多语言文本,但仍然具有挑战性。最近的方法在用单语言渲染文本方面取得了进展,但是渲染任意语言仍然是未开发的领域。本文介绍了PaseText,这是一个基于DIT(扩散 Transformer )的文本渲染框架,该框架将denoto的潜伏期与编码为字符 Token 编码的多语言字符 Token 连接起来 ...
0 0 0 2025/06/05 arXiv:2505.24417v1 fany
基础模型(FMS)提供社会福利,但也会放大风险。政府,公司和研究人员提出了监管框架,可接受的使用政策和安全基准。但是,现有的公共基准通常基于以前的文献,直觉或常识来定义安全类别,从而导致近期法规和政策规定的风险脱节类别集,这使得在这些基准测试中评估和比较FMS方面具有挑战性 ...
0 0 0 2025/06/05 arXiv:2407.17436v2 dm616703
文本到语音综合的最新进展在为单个演讲者产生高质量的简短话语方面取得了显着的成功。但是,这些系统在将其功能扩展到长时间,多扬声器和自发对话时仍然面临挑战,这是播客等现实世界情景的典型代表。这些限制来自两个主要挑战:1)长语音:播客通常跨越几分钟,超过了大多数现有工作的上限; 2)自发性:播客的标志是它们的自发性,口头性质,与正式的书面背景形成鲜明对比;现有作品通常在捕捉这种自发性方面缺乏 ...
0 0 0 2025/06/05 arXiv:2503.14345v2 tonyhehahaha
AI驱动的编码助手的兴起信号表明软件构建方式的基本转变。尽管AI编码助理已集成到现有的集成开发环境(IDE)中,但其全部潜力仍然很大程度上尚未开发。一个关键的挑战是,这些AI助手可能会遭受幻觉的困扰,导致开发人员拒绝AI不应决定的决策路径,有时即使没有用户的意识或同意 ...
0 0 0 2025/06/05 arXiv:2503.02833v1 dhkeviny
我们介绍了Pix2gestalt,这是一个用于零射击分段的框架,该框架学会了估计仅在闭塞后方部分可见的整个物体的形状和外观。通过利用大规模扩散模型并将其表示形式转移到此任务中,我们学习了一个有条件的扩散模型,用于重建挑战的零拍病案例中的整个对象,包括破坏自然和物理先验的示例,例如艺术。作为培训数据,我们使用了包含遮挡对象与整个对应物配对的合成策划数据集 ...
0 0 0 2025/06/05 arXiv:2401.14398v1 wonglliam
在GPT4中的生成模型中,最近的巨大突破已在所有应用中促成了这些模型的无处不在使用。医疗保健是一个可以改善人工智能(AI)的领域。医生遭遇的注释生成任务及其相关的电子病历文档是医生最艰巨的耗时任务之一 ...
0 0 0 2025/06/05 arXiv:2306.02022v1 NoelYin
部署在动态环境中的机器人不仅必须遵循各种语言说明,而且在用户意图中期执行中更改时会灵活适应。尽管最近的视觉语言动作(VLA)模型具有高级的多任务学习和指令,但他们通常会假定静态任务意图,在持续执行期间新说明到达时未能做出响应。这种限制阻碍了在动态环境(例如零售或家庭环境)中的自然和强大的相互作用,在零售或家庭环境中,实时意图变化很常见 ...
0 0 0 2025/06/05 arXiv:2506.03574v1 蔡明方
本文研究了使用增强学习(RL)增强大语言模型(LLM)代理的推理能力的方法。具体而言,我们专注于多转弯工具使用的方案,可以自然地将其建模为马尔可夫决策过程(MDP)。尽管现有的方法经常在强盗设置中对轨迹级优势估算进行多转弯LLM代理进行训练,但他们在多个决策步骤中为转向级的信用分配而苦苦挣扎,从而将其在多转弯推理任务上的绩效限制了 ...
0 0 0 2025/06/05 arXiv:2505.11821v1 leesongzero

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)