知识图谱(2)-知识表示

date
Sep 14, 2022
slug
KG-Knowledge-representation
status
Published
tags
KG
表示学习
summary
type
Post

第二章 知识表示学习

notion image
参考:知识图谱发展报告(2022)下载链接 (访问密码: 2096)

一、任务定义、目标和研究意义

人们通常以网络的形式组织知识图谱中的知识,网络中每个节点代表实体(人名、地名、机构名、概念等),而每条连边则代表实体间的关系。然而,直接应用符号表示的知识图谱存在计算效率低、数据稀疏等诸多挑战性难题。
表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中,两个对象距离越近,则说明其语义相似度越高。知识表示学习,则是面向知识图谱中的实体和关系进行表示学习。
知识表示学习实现了对实体和关系的分布式表示,它具有以下主要优点:
  • 显著提升计算效率:传统的图算法计算复杂、扩展性差,而分布式表示能高效地进行语义相似度计算等操作。
  • 有效缓解数据稀疏:通过将大量对象投影到统一的低维空间,高频对象的语义信息可以帮助完善低频对象的语义表示。
  • 实现异质信息融合:不同来源的知识图谱规范和信源不同,通过表示学习模型可以将它们投影到统一的语义空间,实现信息融合。

二、研究内容和关键科学问题

知识表示学习是面向知识图谱中实体和关系的表示学习。通过将实体或关系投影到低维向量空间,我们能够实现对实体和关系的语义信息的表示,可以高效地计算实体、关系及其之间的复杂语义关联。但是,知识表示学习仍面临很多挑战。

1. 复杂关系建模

根据知识图谱中关系两端连接实体的数目,可将关系划分为 1-1、1-N、N-1 和 N-N 四种类型。例如 N-1 类型关系指的是,该类型关系中的一个尾实体会平均对应多个头实体。研究发现,各种知识获取算法在处理四种类型关系时的性能差异较大,在处理复杂关系时性能显著降低。

2. 多源信息融合

现有知识表示学习很多指利用了知识图谱的三元组结构信息进行表示学习,其他大量信息没有被有效利用。
  • 知识图谱其他信息,如实体和关系的描述信息、类别信息等。
  • 图谱外的海量信息,如与图谱中实体和关系有关的文本信息、图片信息等。
如何充分融合这些多源异质信息,实现知识表示学习,具有重要意义,可以改善数据稀疏问题,提高知识表示的区分能力。

3. 关系路径建模

多步的关系路径也能反映实体之间的语义关系。利用两实体间的关系路径信息,预测它们的关系,取得显著效果,说明关系路径蕴含着丰富信息。知识表示学习孤立学习每个三元组具有局限性,考虑关系路径信息进行突破。

4. 时序信息建模

大量知识具有时效性,随着时间发展在动态变化。例如,美国总统在2010年是奥巴马,在2020年是拜登。利用时序分析和图神经网络等技术,对于分析图谱结构随时间的变化规律和趋势,以及知识推理都具有重要意义。

5. 模型知识增强

语言模型是自然语言理解的核心能力,以预训练语言模型 BERT、GPT 为代表的最先进的深度学习方法,仍然面临鲁棒性差、可扩展性差和可解释性差等问题。
知识表示学习是构建结构化符号知识到深度语言模型的桥梁,如何低成本植入结构化知识到预训练语言模型增强模型的语义理解能力,是目前知识表示学习的热点方向。

三、技术方法和研究现状

研究者提出了多种模型,学习知识图谱中的实体和关系的分布式表示。

1. 复杂关系建模

TransE 将知识图谱中的关系看作实体间的某种平移向量,效果很好。但是,不能处理 1-N、N-1、N-N 的复杂关系。 TransH 提出让一个实体在不同的关系下有不同的表示。 TransR 认为不同关系拥有不同的语义空间,对每个三元组将实体利用矩阵投影到对应的空间中,再建立从头实体到尾实体的平移关系。 TransAt 引入注意力机制,TransMS 使用非线性函数传播多向语义。
TransX 系列之后,在如何处理复杂关系建模的挑战问题上,提出了多种模型, 从不同角度尝试解决复杂关系建模问题。
部分工作从空间着手,ManifoldE 将传统的基于“点”的表示上升为“流形”表示,并设计了 Sphere 和 Hyperplane 两种流形的设置。
ComplEx 从复数空间上建模实体和关系嵌入,以更好地捕获对称和非对称的关系。 RotatE 在复数空间上将关系看做是头实体到尾实体的旋转。 HAKE 则是将实体映射到极坐标系,通过在链接预测任务上的实验表明 HAKE 能有效地在知识图中建立语义层次模型。
ChronoR 是一种用于学习实体、关系和时间表示的模型,可以通过使用高维旋转作为变换算子,捕捉到时间和多关系特征之间的丰富信息,并在时序知识图谱链接预测任务取得优异效果。

2. 多源信息融合

利用知识图谱的三元组结构信息进行表示学习,尚有大量与知识有关的其他信息没有得到有效利用。因此需要对现有知识表示学习模型进行多源信息融合,融合包括文本描述、类别、属性以及图片等多源异质信息。
文本描述 多数知识图谱中含有大量对实体进行描述的文本信息,其中包含着丰富的语义信息。
DKRL 给出两种融合文本描述信息的模型:一种是 CBOW,将文本中的词向量简单相加作为文本表示;一种是 GCN,能够考虑文本中的词序信息。
KEPLER 是利用预训练语言表示和知识表示联合学习的统一模型,如下图所示,通过联合学习将事实知识信息嵌入到预训练模型中,同时通过基于文本训练的预训练语言模型可以得到文本语义增强的知识表示。
含文本描述的知识图谱例子(左),KEPLER 框架(右)
含文本描述的知识图谱例子(左),KEPLER 框架(右)
实体类别 实体由层次类或类型和语义类别的关系来表示。融合实体相关类别信息有助于增强实体的语义表示。
SSE(Semantically Smooth Embedding)模型引入语义类别信息,使得同一类型的实体在嵌入空间更接近。 TKRL模型借助层次结构信息将实体类别信息编码到知识表示。
视觉信息 知识图谱中的实体通常包含丰富的视觉信息,如人物图片、动物图片等。
IKRL模型将图像信息融入到知识图谱进行知识表示学习。在 IKRL 的基础上,[Mousselly-Sergieh et al.,2018] 提出了一种同时融入基于语言学和图像信息的多模态知识表示方法,并构建了一个大规模的多模态知识表示数据集。
逻辑规则 一种可以被利用的信息是逻辑规则。利用三元组和给定的逻辑规则,获取实体和关系的向量表示。
KALE 在一个统一框架中将三元组看作原子公式,并利用转移模型进行建模。规则被形式化为复杂公式,并利用 t 阶模糊逻辑建模,并将复合公式的真值定义为其成分真值的组合。 RUGE进一步提出基于软规则的改进方法。
多语言信息 多语言知识图谱一般包含多种不同语言实体中的结构性知识。
MTransE 分别在独立空间中对实体和关系进行编码,并可以对任意实体或关系向量进行跨语言转换,且多语言知识图谱的嵌入模型保留了单语言嵌入时的优良特性。 IPTransE 将不同 KG 的实体和关系联合编码到一个统一的低维语义空间,利用迭代和参数共享来提高跨语言对齐性能。
不确定信息 为具有不确定信息的 KG 中的三元组添加一个置信度描述不确定性。
UKGE 通过引入规则作为先验知识,利用概率软逻辑方式进行置信度推断。 UOKGE 考虑 KG 中存在不确定本体信息,根据置信度分数学习不确定本体感知知识图上的实体、类和属性的嵌入。 针对不确定知识图谱中长尾关系的少样本问题,[Zhang et al.,2021] 提出基于高斯分布的度量学习方法,利用 Gaussian Embedding 方式建模实体及关系的语义不确定性。

3. 关系路径建模

关系路径是指两个实体之间的多步关系,而不仅限于两个实体之间直接相连的关系。在知识图谱中,多步关系包含了两个实体之间丰富的语义关系,有助于多步推理。
单步与多步关系信息示例
单步与多步关系信息示例
Path-based TransE(PTransE) 模型将关系路径建模成一组关系的组合,并给出相加、相乘和循环神经网络等多种关系组合形式。
循环跳跃网络模型 RSN 将关系路径对实体和关系进行联合学习,利用递归神经网络与残差连接结合,以捕获 KG 中长期依赖关系。
以上方法存在误差传播和可解释性差的问题。 为此,RPJE 模型联合路径和规则进行知识表示学习。 受到神经架构搜索(NAS)的启发,Interstellar 将其作为一种循环架构搜索问题来处理路径信息。 此外,基于图神经网络(GNN)的方法也被广泛应用,如 R-GCN 和基于注意力的模型。 最近,研究者利用Transformer的强大能力,提出了 CoKE 等模型用于关系路径编码。

4. 时序信息建模

当前很多研究集中于静态知识图谱,但许多事实是随时间动态变化的,因此时序知识图谱同样重要。相关工作可分为两类:
  • 外推任务 (Extrapolation task):旨在对未来的事实进行预测。例如,ATiSE 模型考虑了图谱演化中的不确定性,采用多维高斯分布进行表示学习;DBKGE 则构建了动态贝叶斯模型在度量空间中跟踪实体语义。
  • 插值任务 (Interpolation task):旨在预测一个事实在给定的时间点是否有效,也称时序知识图补全。例如,[Leblay & Chekol,2018]在现有关系嵌入模型上进行了扩展;[Garcia-Duran et al.,2018]则将谓词和时间戳序列拼接后输入LSTM进行编码。

5. 模型知识增强

预训练语言模型(PLM)虽强大,但因缺乏结构化知识的自觉运用,导致在知识运用和推理方面能力不足。融合结构化知识的PLM成为研究热点,主要有以下几种方式:
  • 知识增广 (Knowledge Augmentation):从输入端增强模型,直接将知识加入输入,或设计特定模块融合原始输入和知识化输入。
  • 知识支撑 (Knowledge Support):在模型内部进行优化,如在底层引入知识指导层处理特征,或在顶层构建后处理模块以得到更准确的输出。
  • 知识约束 (Knowledge Constraint):利用知识构建额外的预测目标和约束函数来增强原始目标函数。例如,利用知识图谱启发式标注语料作为新目标,或构建额外的预训练目标。
融合结构化知识到预训练语言模型的三种途径
融合结构化知识到预训练语言模型的三种途径

四、开源工具与基准数据集

1. 知识表示学习开源工具

为了促进模型的研究和开发,许多优秀的开源工具被提出,它们实现了多种主流模型,并支持在大型知识图谱上进行高效训练。
  • OpenKE: 由清华大学发布,是高效训练知识图谱表示的早期工具包,实现了TransE、TransR等8种常见模型。
  • BigGraph: 由Facebook研发,专注于大模型图谱的尺度化以及在机器集群上的分布式训练。
  • DGL-KE: Amazon推出的可有效计算知识图谱表示的开源包,利用多处理、多GPU和分布式并行,实现了对超大规模知识图谱的高效训练。
  • 其他工具: 还包括GraphVite,AmpliGraph,Pykg2vec,LibKGE,Scikit-KGE,PyKEEN等,它们分别由不同机构开发,采用Pytorch,TensorFlow等不同框架,各有侧重。

2. 测试基准数据集

为了评测算法性能,研究者们从公开知识图谱中抽取子集构造了大量基准数据集。
  • 基于WordNet: 如WN18,WN18RR等,是语言知识图谱。
  • 基于Freebase: 如FB15K,FB15K-237,FB86M等,是世界知识图谱。
  • 基于Wikidata: 如Wikidata5M,WikiKG90Mv2等,是链接知识库。
  • 时序知识图谱: 针对时序任务,也提出了专门的数据集,如ICEWS14,GDELT等。
这些数据集覆盖了从几万到上亿实体的不同规模,可以满足不同场景下的测试需求。

五、技术展望与发展趋势

尽管知识表示学习领域发展迅速,但仍有许多挑战有待研究。
  1. 面向不同知识类型的表示学习:当前按关系类型(1-1/1-N等)划分过于粗糙,未来需结合认知科学,对树状、网格状、时序等不同知识结构进行针对性建模。
  1. 面向多源信息融合的表示学习:当前信息融合来源和手段有限,未来需要探索融合更多类型的信息(如文本、图像、音视频),并研究如何融合多个异构知识图谱。
  1. 考虑复杂推理模式的表示学习:目前主要依赖三元组,未来需要将关系路径、逻辑规则等复杂推理模式(如“父亲的父亲是祖父”)更精确地融入表示学习中。
  1. 超大规模知识图谱的表示学习:现有工具主要针对百万级实体,而Wikidata等图谱已达上亿实体、数十亿关系。如何适配千万级以上规模的图谱,在负采样、并行训练、通信管理等方面都是巨大挑战。
  1. 大规模知识图谱的在线表示学习:真实世界的知识图谱在不断动态增长,需要设计高效的在线学习方案,以应对图谱的动态更新和数据稀疏性问题。

© Baiye 2022 - 2025