RGHAT:基于多层注意力机制的知识图谱补全框架

本文最后更新于:4 天前

Relational Graph Neural Network with Hierarchical Attention for Knowledge Graph Completion

问题/创新点

知识图谱实体在嵌入时,并没有在局部上具体考虑某实体的neighborhood entity的分层级的、不同价值的信息对该实体的影响。

本文提出的Relational Graph Neural Network with Hierarchical Attention(RGHAT)框架里主要创新运用了两种注意力机制:

  1. 第一层注意力机制是关系级注意力(考虑的是不同关系对中心实体的影响)
  2. 第二层注意力机制是实体级注意力(考虑的是相同关系的不同neighborhood实体对中心实体的影响)

分层注意力机制使我们的模型更有效地利用实体的邻域信息。

通过对知识图谱进行上述分层表示,我们模型所基于的考虑(intuition)是:并非所有相邻关系都对表示中心实体同样重要,并且在每个$N_{h,r}$中,并非所有相邻实体在关系r相连的情况下表示中心实体方面同样重要。

贡献

  • 首先,与大多数现有的KGC模型不同,本文提出的模型非常具体地(explicitly)利用了每个实体的本地邻域信息。
  • 其次,理解了可以将层次结构视为本地相邻信息的集成,并且已经验证了将相关信息集成到组(groups)中是有益的,可提供更多信息并在机器学习任务中产生更好的结果。
  • 第三,在RGHAT中,分层注意力机制为模型提供了非常精细的(fine-grained)学习过程,从而提高了模型的可解释性。 此外,在此设置下,可以以集体的(collective)方式训练具有相同关系的相邻三元组的权重,从而使我们的模型结果更稳定,更符合人类的直觉(intuition)。

方法

模型

模型整体是一个encoder-decoder结构。

encoder首先将实体的本地邻域视为分层结构,然后计算该邻域的关系级注意力和实体级注意力。 接下来,将两个注意力得分合并为一个三级注意力得分,并将最终得分前馈给信息聚合器,后者可以将本地邻域信息有效地聚合到中心实体中。 最后,encoder将实体嵌入输出到decoder。 decoder是一个KGC模型,可以用许多现有的KGC模型代替。 此设置保证了我们模型的灵活性和可扩展性。 在本文中,作者选择ConvE模型作为decoder,因为它在本文进行的实验中表现最好。

Encoder

关系级别注意力(Relation-Level Attention)

设定关系级别的注意力是因为不同关系的权重在表示实体方面存在很大差异。 例如,从直觉上讲,$Los\ Angeles\ Lakers,has_players$关系比$based_in_city$关系更具指示性,因为一个团队的球员可以唯一地标识该球队,而可能有多个基于该球队的球队在同一个城市。

在进行计算时,对中心需要表示的实体$e_1$本文将$(e_2,r,e_1)$转换为$(e_1,r^{-1},e_2)$进行计算。

对于实体$h$,在表示实体时,关系级别的注意力得分表示每个关系的权重,可以被定义为:

实体级别注意力(Entity-Level Attention)

实体级别的注意力机制,即相邻实体的对中心实体表示的权重也可能不同。 例如,关系中has_players将Los Angeles Lakers与其他球员联系起来,在所有这些球员中,当家球星可能比其他球员更能表示一支球队。

所提出的模型首先将处于同一关系下的相邻实体(neighborhood entity)视为一个组,然后计算实体级注意力,如下所示:

在上文两个级别的注意力得分都计算完毕之后,它们会被组合成一个三元组级的注意力得分:

其代表了三元组在表示中心实体$h$时三元组$(h,r,t)$的权重。

信息聚合器(Information Aggregator)

信息聚合器将信息从本地邻域聚合到中央实体center entity,并获得实体h的基于邻域的表示形式,其表示为:

但是上述得到的表示$\hat h$还缺少了自身的有价值的信息(上述计算$a_{h,r}$只是满足注意力机制的输入需求? 只有很少一部分自身信息),为了更好的表示目标实体,下面进一步将基于邻域的表示和输入表示$h$组合,获得输出表示$h’$:

通过对图注意力网络的研究,本文也利用了多头注意力机制来稳定学习过程,提取有关领域的更多信息。

其中$\mathbf{h}_{k}^{\prime}$是第$k$个头的表示输出。在encoder的最后一层,作者将多头的表示做了平均处理作为最后的输出:

单层编码器在1次训练迭代中将one-hop的邻居实体的信息聚合到中央实体。 随着层数和迭代次数的增加,我们的模型可以有效地聚合来自多跳邻居的信息,这为表示中央实体提供了有价值的信息。 最终,编码器将嵌入h’的新实体输出到解码器。

Decoder

实验

下图介绍了实验数据集的基本信息(实体种类,关系总类,训练集/验证集/测试集中三元组数量)

最后作者其实还对单个实体的不同级别的注意力进行了细致的分析(下图分别是$Los\ Angeles\ Lakers和Tom\ Hanks$):