Recent advancements in video understanding within visual large language models (VLLMs) have led to notable progress. However, the complexity of video data and contextual processing limitations still h ...
随着大型语言模型(LLM)的出现,神经机器翻译(NMT)的领域发生了变化。自然语言处理(NLP)最近的许多重点都用于建模机器翻译和许多其他使用单个预训练的 Transformer 解码器的问题,而编码器decoder架构(在早期NMT模型中是标准的编码器架构)受到了相对较少的关注。在本文中,我们通过将LLM的世界与NMT世界结合在一起,探讨了通用,高效且易于优化的翻译模型 ...
神经网络中通常发生的计算成语是对矩阵乘法的结果进行一些点式操作。这种操作序列通常表示为深度学习编译器中的计算图。当编译到GPU目标时,这些计算可以单独映射到Cublas和Cudnn等库提供的手动调整实现 ...
来自人类反馈的强化学习(rlhf)是调整大型语言模型(llm)的关键,通常与近端策略优化(ppo)算法配合使用。虽然ppo是一种专为一般强化学习任务而设计的强大方法,llm来说过于复杂,导致费力的超参数调整和巨大的计算负担。为了提高rlHf的效率,我们推出了 ...
这项研究研究了在大语言模型(LLMS)的上下文中的机器学习技术,称为\ textit {llm uncorning}。 LLM Uncorning提供了一种原则性的方法来消除不良数据的影响(例如 ...
Applying Guidance in a Limited Interval Improves Sample and Distribution Quality in Diffusion Models
指导是一种至关重要的技术,用于从图像生成扩散模型中提取最佳性能。传统上,在图像的整个抽样链中都施加了恒定的引导权重。我们表明,指导显然在链的开始(高噪声水平)上是有害的,这在很大程度上是不必要的(低噪声水平),并且仅在中间有益 ...
在几次识别中,需要在一组课程上接受过培训的分类器,以迅速适应并推广到一组新颖的课程。为此,最近的研究表明,通过精心制作的适应体系结构进行微调的功效。但是,这提出了一个问题:如何设计最佳适应策略?在本文中,我们通过神经建筑搜索(NAS)的角度研究了这个问题 ...
我们提出了DSDRIVE,这是一种量身定制的端到端范式,该范式旨在将自动驾驶汽车的推理和计划集成到统一的框架中。 DSDRIVE利用采用蒸馏方法的紧凑型LLM来保留大型视觉语言模型(VLM)的增强推理能力。为了有效地调整推理和计划任务,进一步开发了以Waypoint驱动的双头协调模块的形式,该模块将同步数据集结构,优化目标和学习过程 ...