专家混合 (MoE) 架构最近在大型语言模型 (LLM) 领域越来越受欢迎,因为它们能够显着减少训练和推理开销。然而,MoE 架构面临着挑战,例如分配给每个专家的 Token 数量存在显着差异,以及专家之间的同质化趋势,这对模型的语义生成能力产生不利影响。在本文中,我们介绍了 LocMoE+,这是低开销 LocMoE 的改进版本,包含以下增强功能:(1)量化和定义专家和 Token 之间的亲和力 ...
High Performance GPU Code Generation for Matrix-Matrix Multiplication using MLIR: Some Early Results
该报告对使用MLIR编译器基础架构在NVIDIA GPU上靶向张量核心的代码生成靶向代码产生了一些早期结果。当今高性能深度学习的最先进主要是由手动优化的高度调谐图书馆驱动的。开发此类库的方法通常不是模块化或重复使用的,而与LLVM这样的编译器基础架构的程度相同 ...
在实际流媒体推荐系统中,用户偏好通常会随着时间的流逝而动态变化(例如,用户在工作日和周末可能具有不同的偏好) ...
超参数调整是机器学习研究的活跃领域,其目的是确定在验证集中提供最佳性能的最佳超参数。通常使用幼稚的技术(例如随机搜索和网格搜索)来实现高参数调整。但是,这些方法中的大多数很少会导致一组最佳的超参数,并且通常会变得非常昂贵 ...
在过去的几年中,视觉变形金刚(VIT)在各种视觉识别任务中始终表现出出色的表现。但是,增强其鲁棒性的尝试取得了有限的成功,主要集中于不同的培训策略,输入补丁增加或网络结构增强功能。这些方法通常涉及广泛的培训和微调,这些培训是耗时且资源密集的 ...
在文本视频检索中,最近的作品从预先训练的文本图像基础模型(例如剪辑)的强大学习能力中受益,它通过使其适应视频域 ...
在复杂的自然环境中,人类在强大的两足动物行走方面表现出色。在每个步骤中,它们都充分调整了生物力学肌肉动力学和神经元信号的相互作用,以便在地面条件下不确定性。但是,考虑到稳定性,鲁棒性和能量效率,神经系统如何解决神经系统如何解决肌肉骨骼的冗余问题 ...
在Meituan Waimai的推荐系统中,我们正在处理持续延长的用户行为序列,这对有效建模用户偏好构成了越来越多的挑战。现有的顺序推荐模型通常无法捕获长期的依赖性或太复杂,这使满足Meituan Waimai独特的业务需求的满足感变得复杂。为了更好地建模用户兴趣,我们考虑根据用户的偏好从用户的广泛历史行为中选择相关的子序列 ...