mlp的文档

mlp

个性签名 ...

One Shot Learning as Instruction Data Prospector for Large Language Models

将大型语言模型 (LLM) 与人类结合起来是在各种语言任务中有效利用其预先训练的能力的关键一步。当前的指令调优实践通常依赖于扩展数据集大小，而没有明确的策略来确保数据质量，这可能会无意中引入噪声并降低模型性能。为了应对这一挑战，我们引入了 Nuggets，这是一种新颖且高效的方法，它采用一次性学习从广泛的数据集中选择高质量的指令数据 ...

0 0 0 0 2024/05/04 arXiv:2312.10302v3 mlp

Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment

与人类偏好保持一致可以防止大型语言模型 (LLM) 生成误导性或有毒内容，同时需要高成本的人类反馈。假设人类注释资源有限，有两种不同的分配方式可供考虑：更多样化的提示或更多样化的待标记响应。尽管如此，它们的影响之间还没有直接的比较 ...

0 0 0 0 2024/05/03 arXiv:2403.11124v2 mlp

Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral

Mixtral是一种代表性的稀疏专家混合（SMoE）语言模型，由于其独特的模型设计和优越的性能而受到广泛关注。在Mixtral-8x7B-v0.1的基础上，本文提出了Chinese-Mixtral和Chinese-Mixtral-Instruct，通过进一步的预训练和指令微调，提高了汉语能力 ...

0 0 0 0 2024/05/03 arXiv:2403.01851v1 mlp

Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language Models

指令调优有潜力激发或增强大型语言模型 (LLM) 的特定功能。然而，实现数据的正确平衡对于防止灾难性遗忘和任务之间的干扰至关重要。为了解决这些限制并提高训练灵活性，我们提出了 Mixture-of-LoRAs (MoA) 架构，这是一种新颖且参数高效的调整方法，专为 LLM 的多任务学习而设计 ...

0 0 0 0 2024/05/03 arXiv:2403.03432v1 mlp

MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT

“越大越好”是最近大型语言模型（LLM）开发的主要趋势。然而，LLM 不太适合需要设备上处理、能源效率、低内存占用和响应效率的场景。这些必要条件对于隐私、安全和可持续部署至关重要 ...

0 0 0 0 2024/05/03 arXiv:2402.16840v1 mlp

Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding

随着大型语言模型 (LLM) 的使用不断增长，使用这些模型进行高效推理变得越来越重要。虽然推测解码最近已成为加速推理的一个有前途的方向，但现有方法在扩展到更大的推测预算以及适应不同的超参数和硬件方面的能力受到限制。本文介绍了 Sequoia，一种可扩展、稳健且硬件感知的推测解码算法 ...

0 0 0 0 2024/05/03 arXiv:2402.12374v2 mlp

Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models

最近，大型语言模型（LLM）表现出了非凡的能力，包括理解上下文、进行逻辑推理和生成响应。然而，这是以严格的计算和内存要求为代价实现的，阻碍了它们有效支持长输入序列的能力。这项调查对旨在延长 LLM 序列长度的最新技术和方法进行了包容性回顾，从而增强了他们的长上下文理解能力 ...

0 0 0 0 2024/05/03 arXiv:2402.02244v1 mlp

Knowledge Fusion of Large Language Models

虽然从头开始训练大型语言模型 (LLM) 可以生成具有独特功能和优势的模型，但它的成本很高，并且可能会导致功能冗余。或者，一种经济有效且引人注目的方法是将现有的预训练 LLM 合并到更有效的模型中。然而，由于这些 LLM 的架构不同，直接混合它们的权重是不切实际的 ...

0 0 0 0 2024/05/03 arXiv:2401.10491v2 mlp

Are Emergent Abilities of Large Language Models a Mirage?

最近的工作声称大型语言模型显示出新兴的能力，这些能力在较小规模的模型中不存在，但在较大规模的模型中却存在。新兴能力的有趣之处在于两方面：它们的敏锐性，似乎是瞬间从不存在到现在的转变，以及它们的不可预测性，以看似不可预见的模型规模出现。在这里，我们对涌现能力提出了另一种解释：对于特定的任务和模型族，在分析固定模型输出时，涌现能力的出现是由于研究人员对度量的选择，而不是由于模型行为随规模的根本变化而出现 ...

0 0 0 0 2024/04/16 arXiv:2304.15004v2 mlp

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

大型语言模型（LLM）已经表现出对人类语言的出色掌握，但在需要解决数学问题的现实应用中仍然举步维艰。虽然开发了许多增强 LLM 数学的策略和数据集，但在部署的 LLM 中同时维护和提高语言和数学能力仍然是一个挑战，在这个http URL这项工作中，我们定制了自我批评管道，它解决了 LLM 中的挑战LLM对齐的反馈学习阶段。我们首先从 LLM 本身训练一个通用的数学批判模型来提供反馈信号 ...

0 0 0 0 2024/04/10 arXiv:2404.02893v1 mlp