专家(MOE)模型的稀疏激活混合物为传统密集激活(致密)模型提供了有希望的替代品,从而提高了质量和计算效率。但是,从头开始培训MOE模型需要大量的数据和计算资源。此外,像蒂姆(Timm)这样的公共存储库主要提供预先训练的密集检查站,缺乏类似的MOE模型资源,从而阻碍了其采用 ...
大型语言模型(LLM)在各种自然语言处理任务中取得了令人印象深刻的表现,但是诸如Web3之类的专业领域提出了新的挑战,并且需要更量身定制的评估。尽管Web3中有重要的用户基础和资本流量,但包括智能合约,分散融资(DEFI),无遗体 Token (NFTS),分散的自治组织(DAOS),链政府和新型的 Token 经济学,没有全面的基准在此Domain中进行系统评估。为了解决这一差距,我们介绍了DM ...
很少有射击学习(FSL)旨在通过利用\ emph {相关}培训任务的经验来学习很少的标签样本。在本文中,我们试图通过研究两个关键问题来理解FSL:(1)如何量化\ emph {triending}和\ emph {news}任务之间的关系? (2)这种关系如何影响不同模型的新任务的\ emph {适应困难}?为了回答这两个问题,我们介绍了以属性为指标的任务属性距离(TAD),以量化任务相关性。与许 ...
指导跟踪对于将大语言模型(LLM)与用户意图保持一致至关重要。尽管最近以推理为导向的模型在复杂的数学问题上表现出令人印象深刻的表现,但它们遵守自然语言指令的能力仍然没有得到充实的态度。在这项工作中,我们介绍了Mathif,这是一种专门的基准测试,用于评估数学推理任务中的指导跟踪 ...
AI和ML的最新进展已经改变了数据科学,但增加的复杂性和专业知识要求不断阻碍进步。尽管众包平台减轻了一些挑战,但高级数据科学任务仍然是劳动密集型和迭代的。为了克服这些局限性,我们引入了研发代理,这是一个迭代探索的双重代理框架 ...
图像检索旨在根据给定查询检索相应的图像。在应用程序方案中,用户打算通过各种查询样式表达其检索意图。但是,当前的检索任务主要集中在文本问题检索探索上,从而导致检索查询选项有限,并且潜在的歧义或用户意图的偏见 ...
尽管人类可以灵活地利用交互式的视觉认知来解决复杂的问题解决方案,从而使大型视觉模型(LVLMS)使用视觉工具学习类似的适应性行为仍然很具有挑战性。一个重大障碍是目前缺乏标准化的基础架构,这阻碍了整合多种工具,生成丰富的交互数据和有效培训稳定的代理。为了解决这些差距,我们介绍了OpenthInkimg,这是第一个开源,全面的端到端端到端框架,用于工具增强的LVLM ...
我们提出了一项新任务,以基于对体现代理的理解理解:在3D场景(SQA3D)中回答的位置问题。给定场景上下文(例如 ...