RAHMeN:当图网络学会“关注”复杂关系
date
Aug 1, 2022
slug
RAHMEN-Multi-embeddings
status
Published
tags
KG
GNN
表示学习
summary
type
Post
RAHMeN模型详解:当图网络学会“关注”复杂关系
在真实世界中,网络结构远比简单的“节点-边”模型复杂。从社交网络中用户间的多种互动(点赞、转发、评论),到生物网络中蛋白质在不同组织内的多样性功能,我们面对的往往是属性化异构多路复兴网络(Attributed Heterogeneous Multiplex Networks, AHMeN)。这类网络包含多种类型的节点和边,且节点自身还带有丰富的属性信息。
传统的图卷积网络(GCN)等模型在处理这种复杂性时常常力不从心,因为它们通常为每个节点只学习一个单一的、全局性的嵌入向量,这难以捕捉节点在不同关系、不同上下文中的多面性。
为了解决这一挑战,来自北卡罗来纳大学夏洛特分校的研究者们提出了 RAHMeN (Relation-aware Embeddings for Attributed Heterogeneous Multiplex Networks),一个新颖的、能够为节点生成“多重嵌入”(Multi-embeddings)的框架。其核心思想是:一个节点的表示不应该是单一的,而应是一组与其参与的各种关系相对应的、互相联系的嵌入向量。这篇博客将严格遵循原论文,为您深入解析RAHMeN的模型架构与设计。
一、核心困境:单一嵌入的局限性
想象一下,在蛋白质相互作用(PPI)网络中,一个蛋白质可能同时存在于大脑、心脏和肝脏组织中,且在不同组织内扮演的角色(即与其他蛋白质的相互作用关系)截然不同。
- 传统模型:会为这个蛋白质生成一个唯一的嵌入向量,试图将它在所有组织中的信息“平均化”或压缩在一起。这无疑会丢失大量上下文特定的信息。
- RAHMeN的设想:应该为这个蛋白质生成一组嵌入,比如一个“大脑上下文”的嵌入、一个“心脏上下文”的嵌入等。这些嵌入既保留了特定上下文的独特性,又通过某种机制相互关联,共同描绘出该蛋白质的全貌。
RAHMeN正是基于这一设想,通过两大核心组件——关系感知的图卷积和关系语义自注意力机制——来实现这一目标。
二、RAHMeN模型架构深度解析
RAHMeN的整个流程可以看作一个分层、迭代的过程。在模型的每一层(k-level),它都会执行以下两个关键步骤,如图1所示:

步骤一:关系感知的图卷积 (Relation-Specific Graph Convolution)
与为整个图应用一个统一卷积核的传统GCN不同,RAHMeN为网络中的**每一种关系(Relation)**都学习了一套专属的图卷积算子。论文将“关系”定义为一个三元组
r = (源节点类型, 边类型, 目标节点类型)。在模型的第
k 层,对于一个目标节点 v 和一个特定的关系 r,RAHMeN执行以下操作来生成其关系专属的嵌入向量 h_{v,r}^k。1. 邻居信息聚合 (Neighbor Aggregation)
首先,模型只关注在关系
r 下与节点 v 相连的邻居 u ∈ N(v,r)。它收集这些邻居在上一层(k-1)的、同样是关系 r 专属的嵌入 ,并通过一个关系专属的可学习权重矩阵 进行变换和聚合(这里采用均值聚合)。公式(1)如下:
- : 邻居节点
u在第k-1层、关系r下的嵌入。
- : 第
k层专用于聚合关系r下邻居信息的可学习权重矩阵。
2. 自身信息融合与更新 (Self-Representation Combination & Update)
得到聚合后的邻居信息 ,RAHMeN会将其与节点
v 自身的、经过变换后的信息相结合。这一步同样是关系专属的。公式(2)如下:
- : 节点
v自身在第k-1层、关系r下的嵌入。
- : 第
k层专用于变换节点v自身在关系r下信息的权重矩阵。
σ: 非线性激活函数,如ELU。
- : 偏置项。
通过这一步,RAHMeN为节点
v 在每一个关系 r 下都生成了一个新的嵌入 。至此,我们得到了一组关系专属的、但彼此独立的节点表示。步骤二:关系语义自注意力机制 (Relational Semantic Self-Attention)
仅仅得到一组独立的嵌入是不够的。一个节点在“大脑”中的功能可能会受到其在“中枢神经系统”中功能的影响。为了让这些关系专属的嵌入能够“相互沟通”、共享信息,RAHMeN引入了其模型名称的核心——注意力机制。
1. 关系嵌入序列化
首先,将节点
v 在第 k 层的所有关系专属嵌入 沿着关系维度堆叠起来,形成一个嵌入矩阵 ,其维度为 ,其中 是关系总数,d 是嵌入维度。公式(3)(概念表示):
2. 计算注意力权重
接下来,模型计算一个 的注意力矩阵 。这个矩阵的第 个元素表示:在为节点
v 生成其在关系 i 下的最终嵌入时,应该对关系 j 下的上下文信息“关注”多少。公式(4)如下:
- : 一个可学习的变换矩阵,大小为 ,用于将每个关系嵌入投影到注意力空间。
- : 关键的关系级注意力矩阵(论文中描述为a trainable relation attention matrix),大小为 。它负责计算不同关系之间的相似度或重要性。
tanh和softmax: 标准的激活和归一化函数。
3. 应用注意力,生成多重嵌入
最后,用计算出的注意力矩阵 对原始的关系嵌入矩阵 进行加权,得到一组全新的、融合了所有关系上下文信息的“多重嵌入” 。
公式(5)如下:
这里的乘法是矩阵乘法 ,结果 仍然是一个 的矩阵。 的每一行就是节点
v 在一个特定关系下的、经过全局信息融合后的新嵌入。这组嵌入就是第 k 层的最终输出。经过
K 层这样的操作,模型最终为每个节点 v 生成一组 个 d 维的嵌入向量 ,即最终的“多重嵌入”。三、模型优化
RAHMeN采用了一种半监督的训练方式。类似于
node2vec,它通过在图中进行随机游走来生成节点序列。特别地,它是针对每一种关系 r 单独进行随机游走,从而捕获特定关系的局部结构。对于生成的节点序列,模型采用负采样(Negative Sampling)优化的
skip-gram 目标。其目标是最大化在同一游走路径、同一上下文窗口内节点对的共现概率,即最小化负对数似然损失。公式(10)(损失函数):
- : 一个正样本三元组,表示在关系
r的上下文中,节点u是v的邻居。
- : 节点
v在关系r下的最终嵌入。
- : 节点
u的上下文嵌入。
L: 负采样的样本数量。
- : 噪声分布。
四、RAHMeN的关键优势总结
- 表达能力强:通过为每个节点生成一组多重嵌入,RAHMeN能够精细地刻画节点在不同关系上下文中的角色和特性,远胜于单一嵌入模型。
- 设计精巧:关系感知的图卷积确保了信息聚合的上下文相关性,而关系语义自注意力机制则实现了跨关系的信息流动和重要性评估。
- 可解释性:模型学到的注意力矩阵
a_v提供了极佳的可解释性。例如,在论文的生物网络实验中,模型自动发现“大脑”组织的蛋白质嵌入与“中枢神经系统”和“神经系统”高度相关,这完全符合生物学知识。
- 归纳学习能力:RAHMeN学习的是一套图卷积和注意力变换函数,而不是针对特定节点的嵌入。因此,它可以自然地应用于归纳学习任务,为在训练中未见过的节点生成嵌入。
总而言之,RAHMeN通过其创新的“多重嵌入”和“关系注意力”设计,为理解和建模复杂网络提供了一个强大而富有洞察力的工具,真正做到了“关注关系”(Pay Attention to Relations)。
