一译 —— 文档和论文翻译、对照阅读、讨论和社区

FreeMesh: Boosting Mesh Generation with Coordinates Merging

在当前自动回归网格生成方法中，下一坐标预测范式已成为事实上的标准。尽管它们的有效性，但对于将网格序列化为序列的各种引物器仍未有效测量。在本文中，我们介绍了新的度量全态凝集（PTME），以理论上在没有任何培训的情况下从理论上评估现有的网格标记 ...

0 0 0 2025/06/05 arXiv:2505.13573v1 happy

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

在本文中，我们介绍了TalkingMachines，这是一个有效的框架，将验证的视频生成模型转换为实时，音频驱动的角色动画师。 TalkingMachines通过将音频大语言模型（LLM）与我们的视频生成基础模型集成在一起，从而实现自然的对话体验。我们的主要贡献包括：（1）我们将预验证的SOTA图像到视频DIT调整为180亿参数的音频驱动的头像生成模型； （2）我们通过从双向教师模型中的不对称知识 ...

0 0 0 2025/06/05 arXiv:2506.03099v1 KingYi

Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention

使用体积表示（例如签名距离函数（SDF））生成高分辨率的3D形状，提出了实质性的计算和内存挑战。我们介绍了Direct3D-S2，这是一个基于稀疏量的可扩展3D生成框架，可通过大幅降低培训成本，从而达到较高的输出质量。我们的关键创新是空间稀疏注意（SSA）机制，它极大地提高了扩散 Transformer （DIT）计算稀疏数据的效率 ...

0 0 0 2025/06/05 arXiv:2505.17412v2 happy

SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

SQL（NL2SQL）的自然语言通过将自然语言查询转换为结构化的SQL语句，从而可以与数据库进行直观的交互。尽管最近在增强数据库应用程序中的人类计算机互动方面取得了进步，但重大挑战仍然存在，尤其是在涉及多桌子连接和嵌套查询的复杂场景中的推理性能方面。当前的方法论主要利用监督的微调（SFT）来训练NL2SQL模型，这可能会限制新环境中的适应性和可解释性（e ...

0 0 0 2025/06/05 arXiv:2504.08600v2 zhangxinhao

Restructuring Vector Quantization with the Rotation Trick

矢量量化的变异自动编码器（VQ-VAE）旨在压缩连续输入到离散的潜在空间，并以最小的失真重建它。它们通过维护一组向量（通常称为代码簿）来运行，并将每个编码器输出量化为代码簿中最近的向量。但是，由于矢量量化是不可差异的，因此编码器的梯度围绕矢量量化层流动，而不是通过直接近似值通过它 ...

0 0 0 2025/06/05 arXiv:2410.06424v2 Daenerays

AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System

基于视觉的远程操作提供了赋予机器人人类水平的智能以与环境进行物理交互的可能性，同时只需要低成本的相机传感器。然而，当前基于视觉的远程操作系统是针对特定的机器人模型和部署环境进行设计和工程的，随着机器人模型池的扩大和操作环境多样性的增加，其扩展性很差。在本文中，我们提出了 ...

0 0 0 2025/06/05 arXiv:2307.04577v3 xsx-666

Comparisons between a Large Language Model-based Real-Time Compound Diagnostic Medical AI Interface and Physicians for Common Internal Medicine Cases using Simulated Patients

开发基于LLM的实时复合诊断医学AI接口的目标，并进行了临床试验，该试验比较了基于美国医疗许可检查（USMLE）的常见内科病例的该界面和医生，步骤2临床技能（CS）样式考试。方法于2024年8月20日进行了非随机临床试验。我们招募了一名普通医师，两名内科居民（第二年和第三年）和五名模拟患者 ...

0 0 0 2025/06/05 arXiv:2505.20609v1 王德发

Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis

准确地理解情绪对于人类计算机互动等领域至关重要。由于情绪的复杂性及其多模式的性质（例如 ...

0 0 0 2025/06/05 arXiv:2501.09502v1 rayjue

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）