一译 —— 文档和论文翻译、对照阅读、讨论和社区

Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview

本文提供了与量化大规模神经网络模型相关的原理，挑战和方法的全面概述。随着神经网络已发展为更大，更复杂的架构以解决越来越复杂的任务，计算和能源成本已经大大升级。我们探讨了模型大小增长的必要性和影响，突出了性能益处以及计算挑战和环境考虑 ...

0 0 0 2025/07/01 arXiv:2409.11650v1 felixslu

LLM A*: Human in the Loop Large Language Models Enabled A* Search for Robotics

这项研究着重于大型语言模型（LLMS）如何以人为互动和互动方式为移动体现的代理（例如机器人）提供（路径）计划。一个名为LLM A*的新型框架旨在利用LLMS的常识，并提出了公用事业最佳的A*，以促进几乎没有射击的近乎最佳的路径计划。提示用于两个主要目的：1）为LLM提供基本信息，例如环境，成本，启发式方法等 ...

0 0 0 2025/07/01 arXiv:2312.01797v3 cengjunlin22

QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering

矩阵量化需要以更高的形式代表矩阵元素以减少存储使用情况，而取消定量恢复了原始矩阵供使用。在量化矩阵占据相同的存储空间的情况下，我们将量化误差最小化（QEM）问题提出最小化矩阵之间的距离。在各种应用中，矩阵量化至关重要，包括大语言模型（LLMS）权重量化，向量数据库，KV缓存量化，图形压缩和图像压缩 ...

0 0 0 2025/07/01 arXiv:2407.03637v4 felixslu

Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information

大型语言模型（LLMS）具有明显的高级自然语言处理任务，例如机器翻译，文本生成和情感分析。但是，它们的大尺寸通常由数十亿个参数组成，对存储，计算和部署构成了挑战，尤其是在资源受限的环境中，例如移动设备和边缘计算平台。有效的压缩和量化技术对于解决这些问题，减少记忆足迹和计算要求至关重要，而不会显着损害性能 ...

0 0 0 2025/07/01 arXiv:2405.17470v1 felixslu

INT-FlashAttention: Enabling Flash Attention for INT8 Quantization

作为大型语言模型（LLM）的基础，自我发场模块在序列长度方面面临着二次时间和记忆复杂性的挑战。 FlashAttention通过利用GPU存储器层次结构来加速注意力计算并减少其内存使用情况。一个有希望的研究方向是将闪光注视与量化方法相结合 ...

0 0 0 2025/07/01 arXiv:2409.16997v2 felixslu

Multimodal Reference Visual Grounding

视觉接地的重点是基于语言表达式从图像中检测对象。最近的大型视觉模型（LVLM）通过使用大型数据集训练大型模型具有显着高级的视觉接地性能。但是，问题仍然具有挑战性，尤其是当输入图像中出现类似对象时 ...

0 0 0 2025/07/01 arXiv:2504.02876v1 yiweima

Enhancing Multimodal Entity Linking with Jaccard Distance-based Conditional Contrastive Learning and Contextual Visual Augmentation

先前关于多模式实体联系（MEL）的研究主要采用对比度学习为主要目标。但是，将其余的批次用作负面样本而无需仔细考虑，这些研究可能会利用简单的功能，并可能忽略使实体独特的基本细节。在这项工作中，我们提出了JD-CCL（基于Jaccard距离的条件对比学习），这是一种新型方法，旨在增强匹配多模式实体链接模型的能力 ...

0 0 0 2025/07/01 arXiv:2501.14166v1 Alex069

INTELLECT-1 Technical Report

在本报告中，我们介绍了智力1，这是在全球范围内协作培训的前100亿个参数语言模型，表明大型模型培训不再局限于大型公司，而是可以通过分布式，社区驱动的方法来实现。对1万亿 Token 进行了培训，该 Token 使用了多达14个在3大洲分布的并发节点，其中30个独立的计算提供商的贡献动态加入并离开训练过程，同时保持83-96％的计算利用率和36.2-41 ...

0 0 0 2025/07/01 arXiv:2412.01152v1 tea5

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）