图形神经网络(GNN)的成功导致需要理解其决策过程并为其预测提供解释,这导致了可解释的AI(XAI),该AI(XAI)为黑盒模型提供了透明的解释。最近,原型的使用成功地通过学习原型来成功提高了模型的解释性,以暗示影响预测的训练图。但是,这些方法倾向于从整个图中提供原型过多的信息,从而排除关键子结构或包含无关的子结构,这可以限制模型在下游任务中的可解释性和性能 ...
几何问题求解一直是自动推理和人工智能领域长期存在的挑战。这是我们系列作品中的第五篇文章,我们构建了一个神经符号系统来自动执行类似人类的几何演绎推理。符号部分是建立在FormalGeo之上的形式化系统,能够自动进行几何关系推理和代数计算,并将求解过程组织成以条件为超节点、定理为超边的解超树 ...
在这项工作中,我们介绍了Omnigen2,这是一种多功能且开源的生成模型,旨在为各种生成任务提供统一的解决方案,包括文本对图像,图像编辑和文本生成。与Omnigen V1不同,Omnigen2采用了两种不同的文本和图像模式解码途径,利用未共享参数和一个解耦的图像 Token 。该设计使Omnigen2能够基于现有的多模式理解模型,而无需重新适应VAE输入,从而保留了原始的文本生成功能 ...
高斯裂开(GS)表现出高效且高质量的场景渲染和较小的面积表面提取能力,但处理大规模空中图像表面提取任务的效果不足。为了克服这一点,我们提出了ULSR-GS,该框架是一个用于超大级场景中高保真表面提取的框架,解决了现有的基于GS的网格提取方法的局限性。具体而言,我们提出了一种点对点分区方法,并结合了多视图最佳视图匹配原理,以选择每个子区域的最佳训练图像 ...
自动语音质量评估对于音频研究人员,开发人员,语音病理学家以及系统质量工程师至关重要。当前的最新系统基于框架语音特征(手工设计或可学习)与时间依赖建模相结合。本文提出了一个有效的系统,其结果与CharceencingsPeech 2022挑战中最佳性能模型相当 ...
尽管大多数先前的研究都集中在提高多模式轨迹预测的精度,但多模式行为意图的显式建模(例如,屈服,超车)仍然相对毫无疑问 ...
在高斯碎片优化过程中,场景的几何形状如果没有故意保存,尤其是在墙壁,天花板和家具表面等非纹理区域,则可能会逐渐恶化。这种退化显着影响了新型观点的渲染质量,这些视图与训练数据中的观点显着偏离。为了减轻这个问题,我们提出了一种名为Geogaussian的新颖方法 ...
深层建筑(DCNV2)是强大的生产基线,并且是众多现实生活推荐系统不可或缺的一部分。它的固有效率和建模相互作用的能力通常会导致与更为需要计算的替代方案(例如Deep FFMS)相比,模型既简单又具有竞争力。在这项工作中,我们对DCNV2体系结构介绍了三种重要的算法改进,并详细介绍了它们的表述和行为 ...