提示在释放语言和视觉基础模型针对特定任务的力量方面发挥着关键作用。我们首次将提示引入深度基础模型,创建了一种新的度量深度估计范式,称为“Prompt Depth Anything”。具体来说,我们使用低成本 LiDAR 作为提示,引导 Depth Anything 模型进行精确的度量深度输出,实现高达 4K 的分辨率 ...
Transformer(NLP)(cv)(cv)(llm)(llm)(llm)和大型视觉模型( lvm)方面。模型压缩方法减少了 Transformer 的内存和计算成本,这是在实际设备上实现大型语言/视觉模型的必要步骤。鉴于/视觉模型的必要步骤。鉴于 Transformer 的独特架构,ffn),ffn),模块,通常需要特定的压缩技术... ...
感兴趣的许多因果和政策效应都是由高维或非参数回归函数的线性功能定义的。 $ \ sqrt {n} $ - 对目标对象的一致且渐近地正常估计需要依据,以减少正则化和/或模型选择对感兴趣对象的影响。通常,通过将校正项添加到功能的插件估计器中来实现,从而导致属性,例如半参数效率,双重鲁棒性和Neyman正交性 ...
对于气候科学,医疗保健和经济学而言,估算观察数据连续值的干预措施的影响是至关重要的任务。最近的工作着重于设计神经网络体系结构和正则化功能,以从高维大样本数据中对平均和个体级剂量反应曲线进行可扩展估计。这样的方法假设可无知(观察所有混杂变量)和阳性(观察每个协变量描述一组单位的协变量值),在连续治疗方案中有问题的假设 ...
图形神经网络(GNN)广泛用于协作过滤中,以捕获高阶用户项目关系。为了解决推荐系统中的数据稀疏问题,图对比度学习(GCL)已成为一种有希望的范式,可在对比度观点之间最大化相互信息。但是,现有的GCL方法依赖于引入语义上无关的噪声并产生大量计算和存储成本的增强技术,从而限制了有效性和效率 ...
对比语言图像预训练(剪辑)在开放式摄影分类中表现出了令人印象深刻的能力。图像编码器中的类 Token 经过训练以捕获全局特征,以区分通过对比损失监督的不同文本描述,从而使其对单标签分类非常有效。但是,它在多标签数据集上表现出较差的性能,因为全局功能往往由最突出的类别和SoftMax操作的对比性质主导,这会加剧它 ...
下一代无线技术(用于沉浸质量的通信,联合通信和传感)需要高度平行的架构,以进行大规模的数据处理。一个通用的架构模板通过将数十枚核心分组为共享的内存群集来扩展,然后将其缩放为多群集的多核系统。这种层次设计用于GPU和加速器,需要在更少的大簇和更小的群集之间进行平衡,从而影响设计复杂性,同步,沟通效率和可编程性 ...
在机器人上实现运动机车的操作需要超越传统跟踪奖励(只需引导机器人沿参考轨迹)即可到达驱动真正动态的,面向目标的行为的任务奖励。诸如“尽可能扔球”或“尽快抬起重量”之类的命令强迫机器人表现出运动性能固有的敏捷性和力量。但是,仅带有任务奖励的培训引入了两个主要挑战:这些奖励容易剥削(奖励黑客),探索过程可能缺乏足够的方向 ...