梯度下降优化算法虽然越来越流行,但经常被用作黑盒优化器,因为很难对其优点和缺点进行实际解释。本文旨在为读者提供有关不同算法行为的直觉,以便他们能够使用它们。在本概述的过程中,我们研究了梯度下降的不同变体,总结了挑战,介绍了最常见的优化算法,回顾了并行和分布式设置中的架构,并研究了优化梯度下降的其他策略 ...
0 0 0 2024/04/25 arXiv:1609.04747v2 Wwx
在大量源代码上进行预训练的大型语言模型 (LLM) 在代码智能方面取得了显着进展。然而,现有的代码 LLM 在架构和预训练任务方面有两个主要限制。首先,它们通常采用特定的架构(仅编码器或仅解码器)或依赖统一的编码器-解码器网络来完成不同的下游任务 ...
0 0 0 2024/04/25 arXiv:2305.07922v2 zhufeizzz
实验的可重复性和可复制性是机器学习的关键主题。作者经常对缺乏提高该领域质量的科学出版物表示担忧。近年来,图表示学习领域引起了广泛研究界的关注,并产生了大量的研究成果 ...
0 0 0 2024/04/25 arXiv:1912.09893v3 zj
大规模预训练以及针对特定任务的微调在各种 NLP 任务中取得了巨大成功。由于微调大型预训练模型的所有参数会带来巨大的计算和内存挑战,因此开发了几种有效的微调方法。其中,低秩适应(LoRA)在冻结预训练权重的基础上对低秩增量更新矩阵进行微调,已被证明特别有效 ...
0 0 0 2024/04/25 arXiv:2403.09113v2 DoubleSails
大规模文本到图像的扩散模型取得了惊人的进步。然而,现状是单独使用文本输入,这会妨碍可控性。在这项工作中,我们提出了 GLIGEN(接地语言到图像生成),这是一种基于现有预训练文本到图像扩散模型并扩展其功能的新颖方法,使它们也能够以接地输入为条件 ...
0 0 0 2024/04/25 arXiv:2301.07093v2 tuoyuxiang
基于端到端生成的方法已被研究并应用于面向任务的对话系统。然而,在工业场景中,现有方法面临可控性瓶颈(例如 ...
0 0 10 2024/04/25 arXiv:2304.00884v1 xx
近年来,异构图神经网络(HGNN)蓬勃发展,但每项工作使用的独特数据处理和评估设置阻碍了对其进展的充分理解。在这项工作中,我们通过使用 12 个最新 HGNN 的官方代码、数据集、设置和超参数,系统地再现了 HGNN 的进展,揭示了有关 HGNN 进展的令人惊讶的发现。我们发现简单的同质 GNN,例如 ...
0 0 0 2024/04/25 arXiv:2112.14936v1 guiguizhu
自动驾驶系统 (ADS) 中的安全轨迹规划是一个需要实时解决的复杂问题。解决这个问题的主要挑战来自道路几何、语义和交通规则以及动态代理的存在所施加的各种条件和约束。最近,模型预测路径积分(MPPI)已被证明是非结构化和高度不确定环境中机器人导航中最佳运动规划和控制的有效框架 ...
0 0 0 2024/04/25 arXiv:2308.01654v3 yebo92

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)