arxiv Multimodal Autoregressive Pre-training of Large Vision Encoders

名称
Multimodal Autoregressive Pre-training of Large Vision Encoders
首页
https://yiyibooks.cn/arxiv/2411.14402v1/index.html
原始地址
https://arxiv.org/abs/2411.14402
描述
我们介绍了一种用于大规模视觉编码器预训练的新方法。基于视觉模型自回归预训练的最新进展,我们将该框架扩展到多模态设置,即 ...