本文介绍了斯隆数字天空调查(SDSS)的第七个数据发布,标志着SDSS的原始目标的完成以及称为SDSS-II的阶段结束。它包括成像数据的11663度^2,大多数大约2000度^2比先前的数据释放相比,位于低银河纬度区域。该目录包含3.57亿个不同物体的五波段光度法 ...
大型音频语言模型(LALMS)的最新进展表现出了令人印象深刻的结果,并在语音,音乐和一般声音中的普遍理解和推理方面具有前途的前景。但是,这些模型仍然缺乏识别其知识界限的能力,并拒绝回答他们不主动知道的问题。尽管已成功尝试提高LLM的可靠性,但可靠的LALM在很大程度上尚未探索 ...
半监督的医学图像细分(SSMIS)使用一致性学习来正规化模型培训,从而减轻了像素手动注释的负担。但是,它通常受到低质量伪标签的错误监督。视觉语言模型(VLM)通过引入文本及时引导的多模式监督信息,具有增强伪标签的巨大潜力 ...
如今,DeepSeek,Chatgpt和Google Gemini是推理,多模式能力和全球一般语言性能的最流行和令人兴奋的大型语言模型(LLM)技术。 DeepSeek采用了专家的混合物(MOE)方法,仅激活与手头任务最相关的参数,这使其对特定于域的工作特别有效。另一方面,Chatgpt依赖于通过从人类反馈(RLHF)学习增强的密集 Transformer 模型,然后Google Gemini实际 ...
现代工业应用要求机器人能够在不可预测的环境中运行,并且可以用最少的努力创建程序,因为任务可能经常发生更改。在本文中,我们表明,遗传编程可有效地用于学习行为树(BT)的结构,以在无法预测的环境中解决机器人任务。此外,我们建议使用一个简单的模拟器进行学习,并证明学习的BT可以在现实的模拟器中解决相同的任务,而无需特定任务的启发式方法即可达到融合 ...
Evolutionary机器人允许具有有限传感器和处理的机器人通过感觉运动协调来解决复杂的任务。在本文中,我们使用Evolutionary Robotics方法论将行为树框架的首次应用于真正的机器人平台。与传统的神经网络公式相比,该框架用于提高新兴机器人行为的清晰度 ...
我们引入 \model,一个文本到图像的框架,可以有效生成高达 4096$\times$4096 分辨率的图像。 \model 可以以极快的速度合成具有强大文本图像对齐功能的高分辨率、高质量图像,可部署在笔记本电脑 GPU 上。核心设计包括:(1)深度压缩自动编码器:与传统AE仅压缩图像8$\times$不同,我们训练了一个可以将图像压缩32$\times$的AE,有效减少了潜在标记的数量 ...
指令调优通过设计文本指令来指导多模态大语言模型(MLLM)调整不同模态,这似乎是增强基础模型能力和可控性的一项重要技术。在此框架中,采用多模态连续指令调优(MCIT)来持续指示 MLLM 在顺序数据集中遵循人类意图。我们观察到现有的梯度更新将严重破坏先前数据集的调整性能以及连续指令调整期间的零样本能力 ...