知识图谱遇上多模态学习：

综合调查

Zhuo Chen, Yichi Zhang, Yin Fang, Yuxia Geng, Lingbing Guo, Xiang Chen, Qian Li, Wen Zhang

{}^{*}

,
Jiaoyan Chen, Yushan Zhu, Jiaqi Li, Xiaoze Liu, Jeff Z. Pan, Ningyu Zhang, Huajun Chen

{}^{*}

https://github.com/zjukg/KG-MM-Survey Zhuo Chen (zhuo.chen@zju.edu.cn), Yichi Zhang, Yin Fang, Lingbing Guo, Xiang Chen, Wen Zhang (zhang.wen@zju.edu.cn), Yushan Zhu, Ningyu Zhang and Huajun Chen (huajunsir@zju.edu.cn) are from Zhejiang University, China. Yuxia Geng is from Hangzhou Dianzi University, China. Jiaoyan Chen is from The University of Manchester and University of Oxford, UK. Jiaqi Li is from Southeast University, China. Xiaoze Liu is from Purdue University, USA. Jeff Z. Pan is from The University of Edinburgh, UK.

*

denotes corresponding authors.

摘要

知识图谱（KG）在推进各种人工智能应用方面发挥着关键作用，语义网络社区对多模态维度的探索开启了新的创新途径。在本次调查中，我们仔细回顾了 300 多篇文章，重点关注两个主要方面的知识图谱感知研究：知识图谱驱动的多模态（KG4MM）学习，其中知识图谱支持多模态任务，以及多模态知识图谱（MM4KG），它将 KG 研究扩展到 MMKG 领域。我们首先定义 KG 和 MMKG，然后探讨它们的构建进度。我们的回顾包括两个主要任务类别：KG 感知的多模态学习任务，例如图像分类和视觉问答，以及内在的 MMKG 任务，例如多模态知识图补全和实体对齐，突出了具体的研究轨迹。对于大多数此类任务，我们提供了定义、评估基准，并另外概述了进行相关研究的基本见解。最后，我们讨论当前的挑战并确定新兴趋势，例如大语言建模和多模式预训练策略的进展。本调查旨在为已经参与或考虑深入研究 KG 和多模态学习研究的研究人员提供全面的参考，为 MMKG 研究不断发展的前景提供见解并支持未来的工作。

索引术语：

知识图谱、多模态学习、大语言模型、调查

我简介

分开考虑知识推理和多模态感知可能不是最合适的策略[1]。这与人类认知相似，大脑随着时间的推移积累的记忆构成了社会适应和生存的重要基础，从而实现了有意义的行动和互动。这些记忆可以分为两个主要类别。

第一类类似于条件反射。通过反复练习，人类发展出一种直觉记忆，可以增强直觉和类比推理能力，通常被称为浅层知识。当这些浅层知识与视觉、听觉和触觉数据等感官输入相结合时，它使我们能够有效地执行基本任务。这种能力是传统多模式任务努力实现的核心。多模态任务涉及来自多种解决问题模态的数据，比传统的单模态自然语言处理 (NLP) 或计算机视觉 (CV) 任务更能模拟现实生活中的情况。例如，视觉问答建立在 NLP 问答任务的基础上，通过合并视觉数据来预测图像和文本问题的答案。同样，图像字幕通过为图像创建描述性句子来扩展 NLG 原则，从而提供对内容的更全面的理解。因此，随着互联网的快速发展和带宽限制的消除，多模式信息源变得至关重要且易于访问，从而能够更精确地获取信息。

第二种类型，称为躯干到尾部知识，在日常生活中较少遇到，并且通常不会导致条件反射形成。该类别需要主动记忆或思考，凸显知识图谱（KG）在捕获和构建长尾知识方面的重要性。当前大规模预训练在吸收知识的同时，也面临着幻觉现象和异常知识模糊等挑战[2,3,4,5]。相比之下，我们的研究主要关注知识图谱中符号化、结构化知识的利用。鉴于知识图谱在组织长尾知识方面的重要作用及其作为许多成功的人工智能和信息系统中的基础知识表示元素的经过验证的有效性[6]，很明显，将知识图谱与多模式相集成学习为进一步应对这些现有挑战提供了一条有希望的途径。

I-A 动机和贡献

如图1所示，现实生活中的个体需要同时处理来自环境的多模态信息，同时不断吸收和利用外部知识。这些要素不应孤立发挥作用；相反，知识和多模态本质上是互补的。尽管存在这种内在联系，但从历史上看，这两个领域是独立发展的。以前的工作要么关注知识图谱增强的多模态学习，要么关注多模态知识图谱研究本身。迄今为止，还没有任何研究或评论对这些领域进行全面、平衡的分析，导致其发展进一步分化。

在本文中，我们首先追踪从传统 KG 到 MMKG 的演变，并注意到语义网络社区的焦点不断演变。然后，我们仔细对 KG 驱动的多模态任务进行分类，其中 KG 作为关键的知识存储库，为各种下游多模态任务提供推理基础和基本知识。接下来，我们探讨了多模式技术对知识图谱的影响，讨论了它们的现状和未来前景。详细的分析涵盖了每项任务内的方法发展，并对关键领域进行了基准测试，从而实现了跨任务的有效比较。这项调查主要关注过去三年（2020-2023）的研究，还包括对大语言模型（大语言模型）最新进展的讨论，探索它们与所涵盖主题的相互作用。它适合所有人工智能研究人员，特别有利于那些深入研究知识驱动的多模态推理和跨模态知识表示的人，并为语义网络技术的从业者寻求新见解提供宝贵的资源。

文献收集方法：对于我们的论文，我们主要从 Google Scholar 和 arXiv 获取文献。 Google Scholar 提供对领先的计算机科学会议和期刊的广泛访问，而 arXiv 是跨学科预印本的关键平台，包括计算机科学界认可的重要存储库。我们在这些平台上采用系统的搜索策略，使用相关的关键字组合来组合我们的参考资料。我们严格策划这个集合，手动过滤掉不相关的论文，并纳入其主要文本中提到的最初被忽视的研究。通过利用 Google Scholar 的引文跟踪，我们通过迭代深度和广度遍历彻底扩充了我们的列表。

I-B 相关文献综述

表一：我们的调查与其他有关多模式学习和知识图的相关评论论文的比较。使用的缩写：D.S. 任务（下游任务），常量。（建筑）、MLMPT（多模态语言模型预训练）、工业应用。（工业应用），4（针对），科学。（科学）。

lccccccccccccc 1 2 7 Survey Papers KG4MM MMKG Challenges and Opportunities
KG Const. D.S. Tasks MLMPT Benchmark Industrial App. MMKG Const. D.S. Tasks Benchmark Industrial App. AI4Sci. KG4MM MMKG LLM
Zhu et al. [7] ✗ ✓ ✗ ✗ ✗ ✓ ✓ ✗ ✗ ✗ ✗ ✓ ✗
Monka et al. [8] ✗ ✓ ✗ ✗ ✗ ✗ ✗ ✗ ✗ ✗ ✓ ✗ ✗
Lymperaiou et al. [9] ✓ ✓ ✓ ✗ ✗ ✗ ✗ ✗ ✗ ✗ ✓ ✗ ✗
Peng et al. [10] ✗ ✗ ✗ ✗ ✗ ✓ ✓ ✗ ✗ ✗ ✗ ✓ ✗
Ours ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓

Several studies have reviewed literature pertinent to KGs and multi-modal learning. Distinct from these, our survey highlights specific differences, as shown in Table I-B.

TABLE II: Frequently Used Symbols.

Notations	Descriptions
$\mathcal{G}$	Knowledge graph defined as $\mathcal{G}=\{\mathcal{E},\mathcal{R},\mathcal{A},\mathcal{T},\mathcal{V}\}$ .
$\mathcal{E}$	Entity set, including typical ( $\mathcal{E}_{KG}$ ) and multi-modal entities ( $\mathcal{E}_{MM}$ ).
$\mathcal{R}$	Set of relation predicates ( $r$ ).
$\mathcal{A}$	Set of attribute predicates ( $a$ ).
$\mathcal{T}$	Statements set, comprising relational ( $\mathcal{T_{R}}$ ) and attribute triples ( $\mathcal{T_{A}}$ ).
$\mathcal{V}$	Attribute values set, including literals like string, date, integer, decimal ( $\mathcal{V}_{KG}$ ) and multi-modal values ( $\mathcal{V}_{MM}$ ).
$\mathcal{I}$	Set of visual images ( $i$ ) in MMKGs.
$(h,r,t)$	Relational triple from $\mathcal{T_{R}}$ with head entity $h$ ( $h\in\mathcal{E}$ ), tail entity $t$ ( $t\in\mathcal{E}$ ), and relation predicate $r$ .
$(e,a,v)$	Attribute triple from $\mathcal{T_{A}}$ with entity $e$ , attribute predicate $a$ and value $v$ .
$<w_{1},\dots,w_{n}>$	Text corpus.
$\mathcal{X}$	Input domain of multi-modal data across $K$ modalities, $\mathcal{X}=\mathcal{X}^{(1)}\times\cdots\times\mathcal{X}^{(K)}$ and $x^{(k)}\in\mathcal{X}^{(k)}$ .
$\mathcal{Y}$	Target domain with $y\in\mathcal{Y}$ .
$\mathcal{D}$	Data distribution for a downstream task.
$\mathcal{Z}$	Latent space with $z\in\mathcal{Z}$ .
$g_{\cdot}(\cdot)$	Mapping function from the input domain (using all of $K$ modalities) to the latent space ( $\mathcal{X}\mapsto\mathcal{Z}$ ).
$q_{\cdot}(\cdot)$	Task mapping function from the latent space to the target domain ( $\mathcal{Z}\mapsto\mathcal{Y}$ ).

知识图谱遇上多模态学习：综合调查

摘要

索引术语：

我简介

I-A 动机和贡献

I-B 相关文献综述

知识图谱遇上多模态学习：

综合调查