k9354465的文档

k9354465

个性签名 ...

DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation

自主驾驶评估需要密切复制实际道路状况的模拟环境，包括现实世界的感觉数据和反应反馈循环。但是，许多现有的模拟需要预测公共数据集或综合影像学数据上的固定路线，\ ie，开环模拟通常缺乏评估动态决策的能力。尽管闭环模拟的最新努力提供了反馈驱动的环境，但它们无法处理视觉传感器输入或产生与现实数据不同的输出 ...

0 0 0 0 2025/04/14 arXiv:2411.11252v1 k9354465

Amphista: Bi-directional Multi-head Decoding for Accelerating LLM Inference

大型语言模型（LLMS）固有地使用自回旋解码，这在推理中缺乏并行性，并且导致推理速度明显缓慢。尽管Medusa之类的方法构建了并行的头部，但它们缺乏在不同预测位置上的足够信息相互作用。为了克服这一限制，我们介绍了Amphista，这是一个增强的投机解码框架，基于美杜莎 ...

0 0 0 0 2025/04/13 arXiv:2406.13170v2 k9354465

3D Representation Methods: A Survey

3D表示的领域取得了重大进步，这是由于对高保真3D模型的需求不断增长，例如计算机图形，虚拟现实和自主系统。这篇综述研究了3D表示方法的发展和当前状态，突出了其研究轨迹，创新，优势和劣势。综述了关键技术，例如体素电网，点云，网格，签名距离功能（SDF），神经辐射场（NERF），3D高斯分裂，三平面和深度游行四面体（DMTET） ...

0 0 0 0 2025/04/10 arXiv:2410.06475v1 k9354465

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

我们介绍 EnerVerse，这是一个专门为机器人操作任务而设计的体现未来空间生成的综合框架。 EnerVerse 无缝集成了用于块内空间建模的卷积和双向注意机制，确保低级一致性和连续性。认识到视频数据中固有的冗余，我们提出了稀疏内存上下文与分块单向生成范例相结合，以能够生成无限长的序列 ...

0 0 0 0 2025/01/15 arXiv:2501.01895v1 k9354465

Spatiotemporal Predictive Pre-training for Robotic Motor Control

机器人电机控制需要能够预测环境和交互对象的动态。然而，机器人运动控制中先进的自我监督预训练视觉表示，利用大规模以自我为中心的视频，通常只专注于学习静态内容特征。这忽略了人类视频中关键的时间运动线索，其中隐含着与环境和物体交互和操纵的关键知识 ...

0 0 0 0 2025/01/15 arXiv:2403.05304v4 k9354465

Mastering Atari with Discrete World Models

智能代理需要从过去的经验中进行概括，以在复杂的环境中实现目标。世界模型促进了这种概括，并允许从想象的结果中学习行为，以提高样本效率。虽然从图像输入中学习世界模型最近对于某些任务来说已经变得可行，但足够准确地对 Atari 游戏进行建模以导出成功的行为多年来仍然是一个开放的挑战 ...

0 0 0 0 2025/01/15 arXiv:2010.02193v4 k9354465

DayDreamer: World Models for Physical Robot Learning

为了解决复杂环境中的任务，机器人需要从经验中学习。深度强化学习是机器人学习的常见方法，但需要大量的试验和错误来学习，限制了其在物理世界中的部署。因此，机器人学习的许多进步都依赖于模拟器 ...

0 0 0 0 2025/01/15 arXiv:2206.14176v1 k9354465

Unity Perception: Generate Synthetic Data for Computer Vision

我们推出了 Unity Perception 包，旨在通过提供易于使用且高度可定制的工具集来简化和加速为计算机视觉任务生成合成数据集的过程。该开源包扩展了 Unity 编辑器和引擎组件，可为几种常见的计算机视觉任务生成完美注释的示例。此外，它还提供了一个可扩展的随机化框架，使用户可以快速构建和配置随机模拟参数，以便在生成的数据集中引入变化 ...

0 0 0 0 2025/01/14 arXiv:2107.04259v2 k9354465

Will we run out of data? Limits of LLM scaling based on human-generated data

我们调查了公共人工生成文本数据的可用性对 LLM 规模的潜在限制。我们根据当前趋势预测对培训数据不断增长的需求，并估计公共文本数据的总存量。我们的研究结果表明，如果目前的 LLM 发展趋势继续下去，模型将在 2026 年至 2032 年间的数据集上进行训练，该数据集的大小大致等于 2026 年至 2032 年之间可用的公共人类文本数据量，或者如果模型训练过度，则可能会稍早一些 ...

0 0 0 0 2025/01/13 arXiv:2211.04325v2 k9354465

OmniDet: Surround View Cameras based Multi-task Visual Perception Network for Autonomous Driving

环视鱼眼摄像头通常部署在自动驾驶中，用于车辆周围的 360° 近场感测。这项工作在未校正的鱼眼图像上提出了一个多任务视觉感知网络，使车辆能够感知周围的环境。它由自动驾驶系统所需的六个主要任务组成：深度估计、视觉里程计、语义分割、运动分割、物体检测和镜头污染检测 ...

0 0 0 0 2025/01/09 arXiv:2102.07448v3 k9354465