知识图谱(6)-知识融合

date
Sep 23, 2022
slug
KG-Knowledge-Fusion
status
Published
tags
KG
知识融合
summary
type
Post

知识融合:从本体匹配到实体链接,全面解析核心技术与前沿趋势

notion image
参考:知识图谱发展报告(2022)下载链接 (访问密码: 2096)
在人工智能领域,知识图谱 (Knowledge Graph) 已成为驱动语义搜索、智能问答和推荐系统等应用的核心动力。然而,这些图谱往往由不同机构、使用不同数据源构建,导致了严重的异构性和冗余。如何将这些散落的知识孤岛融合成一个统一、一致的整体?这便是“知识融合” (Knowledge Fusion) 要解决的核心问题。本文将带你深入剖析知识融合的定义、关键任务、主流技术方法以及未来的发展方向。

什么是知识融合?一个全局概览

知识融合旨在将来自不同知识图谱的实体、概念和关系进行整合,消除异构性与歧义,最终形成一个统一、一致且简洁的知识库,从而实现跨图谱应用的互操作性。
一个典型的知识融合流程如下图所示,主要包含预处理、匹配和真值发现三大环节,并辅以配置、外部资源和人机交互来提升效果。
 知识融合的常见流程
知识融合的常见流程
  • 预处理 (Pre-processing): 对输入的知识图谱进行清洗,并采用分块 (Blocking) 技术将可能匹配的实体对划分到较小的候选中,以避免后续计算的平方级复杂度。
  • 匹配 (Matching): 这是知识融合的核心,根据匹配对象的不同,可细分为本体匹配、实体对齐和实体链接。其关键挑战在于如何从语义上消解不同来源对象间的异构性。
  • 真值发现 (Truth Discovery): 在匹配的基础上,当多个数据源对同一事实有不同描述时(例如,珠穆朗玛峰的高度),此环节旨在从中推断出最可信的“真值”。

核心任务一:本体匹配 (Ontology Matching)

本体匹配的目标是建立不同知识图谱中模式层(Schema Level)概念之间的语义映射关系,例如将一个图谱中的“作者”概念与另一个图谱中的“创作者”对齐。
这是一个相对成熟的领域,早期的代表性工作包括 RiMOM 和 Falcon-AO。值得一提的是 LogMap 系统,它不仅因其高可扩展性、逻辑推理与修复能力在2021年荣获了“十年最具影响力论文奖”,近年来还集成了表示学习技术,持续保持着其先进性。
本体匹配方法 LogMap [Chen et al., 2021]
本体匹配方法 LogMap [Chen et al., 2021]

核心任务二:实体对齐 (Entity Alignment)

实体对齐(也称实例匹配)侧重于发现不同知识图谱中指代现实世界同一物体的实例(Entities)。例如,将 KG1 中的“北京大学”与 KG2 中的“Peking University”对齐。这是当前知识融合领域的研究热点。

1. 基于表示学习的主流范式

近年来,以知识图谱表示学习为基础的实体对齐方法已成为主流。其通用框架如下图所示,主要包含两大模块:
基于表示学习的实体对齐框架
基于表示学习的实体对齐框架
  • 表示学习模块 (Embedding Module): 将每个知识图谱内的实体和关系嵌入到低维向量空间中。图神经网络 (GNN) 是当前最常用的技术之一。
  • 对齐模块 (Alignment Module): 利用少量已知的“种子对齐”作为监督信号进行训练,然后通过度量向量相似度来发现新的对齐实体。
代表性工作 Dual-AMN 通过设计关系型注意力的卷积层来捕捉图谱内结构,并巧妙地设置了一组“代理向量”来隐式表示和捕捉图谱间的对齐关系,有效提升了对齐性能。

2. 应对动态与时序挑战

传统的实体对齐方法大多假设知识图谱是静态的,但这与事实不符。为了应对这一挑战,新的研究方向应运而生:
  • 动态实体对齐: 如 DiNGAI 模型,它首次提出动态实体对齐任务,能够针对知识图谱中不断变化的事实,对实体表示进行高效的局部更新,避免了从头训练的巨大开销。
  • 时序实体对齐: 如 TEA-GNN 模型,它将时间戳信息融入图神经网络,并设计了时间感知的注意力机制来处理带有时效性的事实,实现了在时序知识图谱上的精准对齐。
面向时序知识图谱的实体对齐方法 TEA-GNN
面向时序知识图谱的实体对齐方法 TEA-GNN

3. 融合多模态与人机协作

为了进一步提升对齐的准确性,研究者们也开始探索融合更多维度的信息:
  • 人机协作: 通过主动学习等技术,用最小的人工标注成本获取最高价值的训练数据。例如,RAC 模型结合深度强化学习和多臂老虎机策略,自适应地选择最高效的查询策略交由人工标注。
基于人机协作的实体对齐方法 RAC
基于人机协作的实体对齐方法 RAC
  • 多模态实体对齐: 实体常常关联着图像、数值等信息。MMEAEVA 等工作通过引入图像特征(利用VGG、ResNet等模型提取)来辅助对齐,将不同模态的信息投影到一个公共空间进行互补,有效解决了仅靠文本难以区分的歧义问题。
基于多模态的实体对齐方法 MMEA
基于多模态的实体对齐方法 MMEA

核心任务三:真值发现 (Truth Discovery)

真值发现旨在从多个来源的冲突数据中推断出事实的真值。传统方法主要分为三类:迭代式方法(如 TruthFinder)、最优化方法和概率图模型。
近年来,深度学习也被用于解决此问题。例如,CASE 将真值发现建模为异构信息网络中的表示学习问题;BAT 则利用图自编码器和注意力机制来聚合信息,预测真值。此外,EvolveT 等工作利用卡尔曼滤波等技术,实现了对流式数据中真值的快速、高效估计。

核心任务四:实体链接 (Entity Linking)

实体链接的任务是将自然语言文本中提及的实体(mention)链接到知识图谱中对应的正确实体上。这项任务的核心挑战在于处理“一词多义”(如“苹果”公司 vs. “苹果”水果)和“多词同义”(如“NLP” vs. “自然语言处理”)的歧义性。
一个完整的实体链接流程通常包括:提及识别、候选生成、候选排序不可链接预测四个步骤。
端到端实体链接方法 CHOLAN
端到端实体链接方法 CHOLAN
现代实体链接模型如 Facebook 的 BLINK 采用“检索-排序”两阶段架构,兼顾了效率和精度。而 CHOLAN 则利用 Transformer 构建了一个端到端模型,将实体提及、上下文、候选实体及其描述信息拼接后,共同输入一个 BERT 模型进行最终决策。

工具、数据集与技术展望

  • 工具与平台:
    • 本体匹配: OAEI 评测平台提供了丰富的工具和系统。
    • 实体对齐: OpenEA 是一个集成了12种主流方法的开源库,框架灵活,易于扩展。
    • 真值发现: CrowdTruthInference 库集成了17种真值推断算法。
基于表示学习的实体对齐开源软件库 OpenEA
基于表示学习的实体对齐开源软件库 OpenEA
  • 技术展望:
      1. 大规模知识图谱预训练: 借鉴NLP领域的成功经验,在融合后的大规模知识图谱上进行预训练,为下游任务提供通用的知识表示,尤其有助于解决低资源场景下的问题。
      1. 面向动态流式数据: 未来的研究将更多地考虑知识的动态演化,开发面向流式数据的动态实体对齐和真值发现技术。
      1. 构建高质量评测基准: 当前的数据集(如 DBP15K)已显陈旧且规模较小。未来亟需构建规模更大、质量更高、场景更复杂(如多模态、跨语言)的新一代评测数据集,以推动该领域的持续发展。

总结与启示

知识融合是充分发挥知识图谱价值的关键技术,其研究正从处理静态、单模态数据向动态、多模态、人机协同的复杂场景演进。

核心启示 (Takeaways):

  1. 技术核心多元化: 知识融合是一个多阶段的系统工程,其中实体对齐是当前最活跃的研究方向,而本体匹配、真值发现、实体链接等任务同样不可或缺。
  1. 场景复杂度提升: 未来的技术挑战将更多地集中在动态时序、多模态融合、低资源和人机协作等复杂场景中。
  1. 数据与模型双轮驱动: 高质量、大规模的预训练模型和评测基准将是推动知识融合技术未来突破的双重引擎。

© Baiye 2022 - 2025