指令调优是一种标准技术,用于在初始预训练阶段之后使大型语言模型与最终任务和用户偏好保持一致。最近的研究表明数据工程在指令调整中的关键作用——如果选择得当,只需有限的数据即可实现卓越的性能。然而,对于什么是好的指令调整数据以进行对齐,以及我们应该如何自动有效地选择数据,我们仍然缺乏原则性的理解 ...
0 0 0 2024/07/27 arXiv:2312.15685v2 123123124
知识蒸馏(KD)已成为模型压缩领域广泛使用的技术,其目的是将知识从大型教师模型转移到轻量级学生模型,以实现高效的网络开发。除了对groundtruth的监督之外,vanilla KD方法还将教师的预测视为软标签来监督学生模型的训练。基于普通 KD,人们开发了各种方法来进一步提高学生模型的性能 ...
0 0 0 2024/07/27 arXiv:2404.03693v1 123123124
大型语言模型 (LLM) 用途广泛,可以解决许多任务,但为了计算效率,通常需要将其功能提炼成更小的学生模型。对于分类任务执行此操作的一种方法是通过数据集合成,这可以通过从 LLM 生成每个标签的示例来完成。先前的综合方法使用少样本提示,这依赖于 LLM 的参数知识来生成可用的示例 ...
0 0 0 2024/07/27 arXiv:2405.10040v2 123123124
当利用语言模型进行推理任务时,生成明确的思维链 (CoT) 步骤通常对于实现最终输出的高精度至关重要。在本文中,我们研究是否可以训练模型来内化这些 CoT 步骤。为此,我们提出了一种简单而有效的内化 CoT 步骤的方法:从经过显式 CoT 推理训练的模型开始,我们逐渐删除中间步骤并对模型进行微调 ...
0 0 0 2024/07/27 arXiv:2405.14838v1 xxx
嵌入式人工智能(Embodied AI)对于实现通用人工智能(AGI)至关重要,并且是连接网络空间和物理世界的各种应用的基础。最近,多模态大型模型(MLM)和世界模型(WM)的出现因其卓越的感知、交互和推理能力而引起了极大的关注,使它们成为具身智能体大脑的有前途的架构。然而,目前还没有针对传销时代的嵌入式人工智能的全面调查 ...
0 0 0 2024/07/27 arXiv:2407.06886v5 KingXHJ
图神经网络(GNN)推动了图结构数据分析的进步。最近,像 GPT-4 这样的大型语言模型 (LLM) 的兴起预示着深度学习的新时代的到来。然而,由于将图结构翻译成语言的固有困难,它们在图数据上的应用提出了明显的挑战 ...
0 0 0 2024/07/27 arXiv:2402.08170v3 HanyunHans
在大型模型、海量数据集、加速硬件以及最后但并非最不重要的可微分编程的变革力量的推动下,人工智能最近经历了显着的进步。这种新的编程范式可以实现复杂计算机程序(包括具有控制流和数据结构的程序)的端到端区分,从而使基于梯度的程序参数优化成为可能。作为一种新兴的范式,可微分编程建立在计算机科学和应用数学的多个领域之上,包括自动微分、图形模型、优化和统计 ...
0 0 0 2024/07/27 arXiv:2403.14606v2 mz
自动驾驶有可能彻底改变个人、公共和货运出行。除了感知的巨大挑战之外,即 ...
0 0 0 2024/07/27 arXiv:2308.05731v2 chenlei

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)