一译 —— 文档和论文翻译、对照阅读、讨论和社区

OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning

我们提出OmniH2O（Omni人类到人类），这是一种基于学习的全身人形近亲和自主权的系统。 OmniH2O使用运动姿势作为通用控制界面，使人类可以用灵巧的手控制全尺寸的类人动物，包括通过VR耳机，口头说明和RGB摄像机使用实时远程操作。 Omnih2O还可以通过从远程手工演示中学习或与GPT-4等边境模型进行整合来实现完全的自主权 ...

0 0 0 2025/06/09 arXiv:2406.08858v1 wchiyu98

Towards Heterogeneous Multi-core Accelerators Exploiting Fine-grained Scheduling of Layer-Fused Deep Neural Networks

为了跟上神经网络的不断增长的性能需求，专门的硬件（HW）加速器正在转向多核和chiplet架构。到目前为止，这些多加速器系统通过在不同核心上输入批处理的不同NN层来利用增加的并行性，以增加吞吐量。但是，在使用延迟关键应用程序的非批量逐层调度进行追求时，这无法完全利用可用的HW资源来朝着边缘的能源效率执行 ...

0 0 0 2025/06/09 arXiv:2212.10612v1 lee_e

Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

（lclm）（lclm）有可能彻底改变我们传统上依赖外部工具（如检索系统或数据库）的任务方法。利用lclm本地摄取和处理整个信息库的能力具有许多优势。它通过消除对工具专业知识的需求来增强用户友好性，提供强大的端到端建模，最大限度地减少复杂管道中的级联错误，并允许在整个系统中应用复杂的提示技术... ...

0 0 0 2025/06/09 arXiv:2406.13121v1 cctristan

VCT: Training Consistency Models with Variational Noise Coupling

一致性训练（CT）最近成为扩散模型的有前途的替代方案，在图像生成任务中实现了竞争性能。但是，非降级一致性训练通常会遭受较高的差异和不稳定性的影响，并且分析和改善其训练动态是一个积极的研究领域。在这项工作中，我们根据流匹配框架提出了一种新型的CT训练方法 ...

0 0 1 2025/06/09 arXiv:2502.18197v2 eden12

MiMo-VL Technical Report

我们开源MIMO-VL-7B-SFT和MIMO-VL-7B-RL，这是两个强大的视觉语言模型，在一般的视觉理解和多模式推理方面提供了最先进的性能。 MIMO-VL-7B-RL的表现优于40个评估任务中的35个QWEN2.5-VL-7B，得分为59 ...

0 0 0 2025/06/09 arXiv:2506.03569v1 当代吗喽

The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Analysis of Orthogonal Safety Directions

大型语言模型的安全一致行为（例如拒绝有害查询）可以用激活空间中的线性方向表示。先前的研究将安全行为模拟了一个方向，将机械理解限制在孤立的安全特征上。在这项工作中，我们发现与安全符合的行为由多维方向共同控制 ...

0 0 0 2025/06/09 arXiv:2502.09674v4 dm616703

GAGS: Granularity-Aware Feature Distillation for Language Gaussian Splatting

近年来，3D开放式摄影场景的理解能够准确地感知到空间中物体的复杂语义特性。在本文中，我们提出了插科打术，该框架将2D夹子提炼为3D高斯裂缝，从而在任意观点上实现了对渲染的开放量查询。蒸馏2D功能的主要挑战在于提取的2D功能的多视图不一致，这为3D功能字段提供了不稳定的监督 ...

0 0 0 2025/06/09 arXiv:2412.13654v2 ajplus

Masked Autoencoders Enable Efficient Knowledge Distillers

本文研究了从预先训练的模型，尤其是蒙面自动编码器中提取知识的潜力。我们的方法很简单：除了优化掩盖输入上的像素重建损失外，我们还将教师模型的中间特征图与学生模型的中间特征图之间的距离最小化。该设计导致一个计算高效的知识蒸馏框架，给定1）仅使用一个少量可见的贴片子集，2）（繁琐的）教师模型仅需要部分执行，即在前几层中向前传播输入，以获取中间标志 ...

0 0 0 2025/06/09 arXiv:2208.12256v2 yazou

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）