基于元学习的小样本知识图谱补全

时间:2023-08-14 20:55:01 公文范文 来源:网友投稿

汪雨竹,彭 涛,2,朱蓓蓓,崔 海

(1.吉林大学 计算机科学与技术学院,长春 130012; 2.吉林大学 符号计算与知识工程教育部重点实验室,长春 130012)

随着互联网技术的高速发展,如何表示、存取和使用知识已成为亟待解决的问题,而作为结构化语义知识库,知识图谱的相关研究也在不断发展和完善.知识图谱是由语义网络演化而来的.语义网络[1]作为知识表示的一种方法,其是由表达信息的节点及表示节点之间关系的有向直线连接而成的结构化知识图,本质是建立开放数据之间的链接.作为Web3.0时代的特征之一,它是理解词语、概念及其之间逻辑关系的智能网络,可提高互联网信息交互效率.知识图谱用可视化技术描述知识资源及其载体[2],挖掘、分析、构建、绘制和显示知识及其之间的相互联系,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,达到多学科融合的目的[3],能为学科研究提供切实有价值的参考[4].知识图谱由大量描述客观事实及其关系的结构化三元组构成,图中节点表示实体或概念,有向边表示实体与概念之间的语义关系,并且已经广泛应用于智能检索、推荐与问答、机器翻译、金融风控和智慧城市等领域.

现实中多数大规模知识图谱是稀疏的,需要补充隐含信息或添加新的三元组使其更完整,这样的工作称为知识图谱补全(KGC).知识图谱补全可分为实体预测、关系预测和链路预测3个子问题,目前大多数研究都只适用于其中一个子问题,也有少数方法同时进行3个任务.按能否处理新实体和新关系,可分为静态知识图谱补全和动态知识图谱补全.静态知识图谱补全是基于图中现有的实体补充其间的隐含关系,仅能处理实体以及关系都是固定的场景,扩展性较差.动态知识图谱补全引入新实体或新关系扩大知识图谱的规模,更具现实意义[5].按照缺失的部分进行分类,可分为对头实体、对关系和对尾实体的预测.但知识图谱中存在部分长尾关系,即当关系出现频率较低时,对应的实体数量较少,针对上述问题的KGC任务称为小样本知识图谱补全.

随着知识图谱的不断发展,应用范围逐渐广泛,而大规模知识图谱比较稀疏,其中关系的长尾分布较普遍,为应对出现频率不高的关系数量较多的问题,研究人员开始关注小样本知识图谱补全任务[6].本文提出一个融合了元学习思想,应用Transformer解决小样本知识图谱补全问题的模型——Meta-TKGC(基于元学习和Transformer的知识图谱补全模型).该模型提出一个基于卷积神经网络(CNN)的关系元嵌入学习器,从任务关系的参考实体对中捕获关系信息; 应用元学习的思想,将参考集中关系特定的元信息迁移至查询集中,将公共关系信息从已知的真实三元组转移到不完整的三元组,在框架Meta-TKGC中,关系元是连接头尾实体关系的高阶表示; 利用基于Transformer的编码器在预测过程显式建模查询集及其负例的头尾实体嵌入,实现不完全三元组更好的匹配.

目前解决知识图谱补全问题的方法包括基于嵌入的方法、小样本关系学习方法、关系路径推理方法[7]、基于强化学习的方法[8]、三元组分类方法以及基于规则推理的方法[9],本文主要应用前两种方法.

1.1 基于嵌入的方法

基于嵌入的方法关注如何学习实体及关系嵌入,主要包括以下3类:

1) 张量分解模型是将整个知识图谱中三元组视为一个三阶邻接矩阵,之后对其降维,转化为头实体、关系和尾实体的拼接; RESCAL[10]将实体与实体之间的关系描述为一个三维矩阵,然后分解为实体的潜在语义表示和非对称关系矩阵的组合,但该模型不适用于大规模知识图谱,随着关系矩阵的维度增加,复杂度增加,易出现过拟合; DistMult[11]针对上述问题,将关系矩阵简化为对角矩阵,但无法解决非对称关系相应的预测问题.

2) 在几何模型中,纯翻译模型以TransE[12]及其扩展的TransH[13],TransR[14]为代表,这类模型利用实体与关系之间的距离衡量三元组的合理性; 由于大部分基于嵌入的模型并未考虑到实体和关系的双向作用,使用额外信息的翻译模型将知识图谱中的辅助信息融合到实体及关系嵌入[15]; 旋转翻译模型可以正确推断上述算法无法建模的对称关系、反对称关系、反演关系和合成关系.

3) 基于深度神经网络的模型,为处理大规模知识图谱中参数规模与过拟合之间的矛盾,ConvE[16]应用二维卷积,保证模型训练速度的同时可达到较好的实验效果; 但在ConvE中,对实体和关系嵌入的重构和聚合不能充分表达图中的信息,而同样基于CNN的CTKGC[17]通过在元素层次上融合实体嵌入和关系嵌入构造一个便于二维卷积的矩阵,模型架构简单且可解释性较强.

1.2 基于元学习的方法

为应对大规模知识图谱中三元组中关系的长尾分布现象,本文模型引入元学习[18]的方法解决小样本问题,元学习偏重于任务和数据的双重采样,适合于小样本学习,它将训练集和测试集分为若干个训练任务和测试任务,面向多个任务联合训练,利用前面任务的经验指导新任务的学习,使机器具备适应每个具体任务的能力.目前基于元学习的方法包含以下三类.

1) 基于度量学习的方法: 度量学习广泛应用于图像处理中,根据目标的某些核心特征得到衡量特定任务的距离度量函数.Prototypical Network[19]选取Bregman散度中的平方欧氏距离作为距离度量方式完成了小样本分类任务,模型策略简单且效果较好.

2) 模型表示增强方法: 这类算法的目的是提高样本的表示能力,LaSO[20]从图像中学习到隐式的语义信息,相当于对数据集进行了数据增强,拓展了特征空间包含的信息,因此可用于解决小样本的多标签分类问题.

3) 基于参数优化的方法: 这类方法[21]主要为了学习模型对各种任务的初始参数,通过几个迭代步骤即可获得优异的泛化性能.MAML具备无模型限制、元学习和快速适应的特性,能在少量样本、有限迭代次数条件下快速适应新的任务并完成参数的优化,适用于多种网络模型和任务类型.

1.3 小样本知识图谱补全模型

由于长尾关系的特殊性,上述方法并不完全适用于小样本知识图谱补全场景.首先,对于单样本知识图谱补全问题,以图卷积网络(GCN)为基础的GMatching[22]由邻居编码器和匹配处理器组成,邻居编码器捕获一跳邻域信息得到实体和关系嵌入,并应用长短期记忆网络(LSTM)进行参考实体对、查询实体对的多步匹配得到相似性得分,选取最佳候选实体作为预测结果.MetaR[23]以元学习为核心思想,包含一个关系元编码器和一个嵌入学习器,关系元编码器利用支持集中的实体对获取任务关系元信息,将其转移至查询集中,应用嵌入学习器区分查询集中的正负例完成对缺失实体的预测.上述方法只是假设所有邻居对实体嵌入的贡献相等,或者为邻居分配静态的注意力权重,得到的是静态实体表示,而FAAN[24]提出了动态属性的概念,设计了应用Transformer的自适应注意力网络用于获取参考实体对的动态自适应表示,以及一个基于注意力的聚合器用于表示查询集的缺失三元组.

知识图谱可表示为三元组的集合τ={(h,r,t)}⊆E×R×E,其中h,r,t分别表示头实体、关系和尾实体,E和R分别表示实体集和关系集.知识图谱补全任务分为(?,r,t),(h,?,t),(h,r,?)三类任务,本文研究对尾实体的预测,例如对(珠峰计划,创办时间,?)中尾实体的预测.将元学习的思想应用到小样本知识图谱补全中,按关系分类,将每类关系对应的不完全三元组的预测视为一个任务,因此训练集Ttrain={Dtr}和测试集Ttest={Dte}都是若干个任务的集合,Dtr,Dte是训练任务和测试任务,分别表示为Dtr={Sr,Qr}和Dte={Sr′,Qr′},其中Sr,Qr分别表示每个任务r对应的支持集和查询集,r′表示训练集中未出现过的新关系.Sr,Qr的定义如下: 对于特定关系任务,将关系r对应的K个头尾实体对称为支持集,表示为Sr={(hr,tr)|(hr,r,tr)∈G},且|Sr|=K为样本数量,其中G表示背景知识图谱,类似于由任务关系“创办时间”对应的三元组中(国际滑冰联盟,创办时间,1892年)的头尾实体(国际滑冰联盟,1892年)构成的K个实体对的集合.从支持集中提取信息转移至对应的查询集Qr={(hi,r,ti)|ti∈Chi,r},其中Chi,r表示待预测三元组中头实体hi对应的候选尾实体集合.最终预测任务可描述为完成测试集Qr′={(hi,r′,ti)|ti∈Chi,r}中对候选尾实体的排序.

3.1 总体框架

Meta-TKGC由关系元学习器、Transfomer编码器[25]和匹配处理器三部分组成.图1为模型的整体架构,图2为关系元学习器的实现过程.基于CNN的关系元学习器根据参考实体对获取任务关系嵌入; 将初始化后的任务关系表示、查询集和查询集负例拼接成三元组,分别和它们的位置信息结合,输入Transfomer编码器中,得到查询集及其负例的嵌入; 将任务关系嵌入迁移到查询部分,在匹配处理器中,计算前两部分得到的头尾实体和关系特征表示间的相似度得分,完成小样本知识图谱补全任务.

图1 模型的整体架构Fig.1 Overall architecture of model

图2 关系元学习器Fig.2 Relation-meta learner

3.2 关系元学习器

关系元学习器作为两层前馈神经网络,由卷积层和全连接层建模实体和关系之间的相互作用.首先,把支持集的头尾实体拼接,输入到二维卷积层中,经过激活和最大池化后,重构为一个融合参考集实体和关系信息交互的三阶张量:

(1)

其中Sh和St分别表示支持集头尾实体的嵌入,ω为卷积层的滤波器,σ表示ReLU激活函数.再输入到一个线性层,进行批量归一化:

(2)

其中W和b表示可学习参数.其次,对由K个参考集实体对获取的关系表示求平均,得到可迁移至查询集的任务关系嵌入Rs:

(3)

3.3 Transfomer编码器

由于现有的嵌入模型总需要足够多的训练数据对任务关系建模,但实际应用中可依据的相关信息较少,很难获取到小样本关系的有效表示.受翻译距离模型的启发,基于平移假设,由h+r=t得到r=t-h,因此由支持集的头尾实体嵌入计算任务关系的原始嵌入R0为

R0=St-Sh,

(4)

其中Sh和St分别表示支持集头尾实体的嵌入.对于查询集及其负例的头尾实体,将对应的预训练嵌入和三元组位置嵌入相加,得到实体和关系的位置信息融合嵌入:

hi=h0+hpos,

(5)

ti=t0+tpos,

(6)

其中h0,t0分别表示头尾实体的原始嵌入,hpos,tpos分别表示头尾实体的位置嵌入.获取实体嵌入后,与上个模块得到的关系元嵌入拼接成三元组嵌入,从而实现了参考集信息和查询集信息的有效结合,然后输入L层Transformer中:

(7)

(8)

3.4 匹配处理器

根据纯翻译模型TransE中的得分函数h+r=t,计算衡量三元组准确度的得分函数:

φ(Hj,Rs,Tj)=Hj+Rs-Tj,

(9)

其中: 应用的关系元Rs为模型第一部分的结果,即由支持集获得的关系元嵌入; 实体嵌入Hj,Tj是由L层Transformer编码器计算得到的.模型的损失函数定义为

(10)

4.1 数据集及评价指标

本文选取数据集NELL-One和Wiki-One进行实验,它们是在NELL[26]和Wiki[27]的基础上移除自反关系,并保留三元组数量为50~500的关系构建而成的,数据集的具体信息及任务划分列于表1.

表1 数据集统计结果及划分

选择平均倒数排名(MRR)、Hits@5和Hits@1作为评价指标,其中MRR是预测结果中真实匹配的文本排序位置平均值的倒数,Hits@k表示预测结果排在序列前k的个数占全部预测结果的比例,上述几个评价指标数值越大表示预测结果越好.

4.2 基线算法

选择基于嵌入的模型TransE和DistMult及小样本关系学习算法GMatching和MetaR与Meta-TKGC进行比较,衡量本文算法的有效性.TransE利用实体和关系之间的距离衡量三元组的合理性,RESCAL先将实体与实体之间的关系描述为一个三维矩阵,再分解为实体的潜在语义表示和非对称关系矩阵的组合表示,DistMult将RESCAL中的关系矩阵简化为对角矩阵,并且由于GMatching是针对单样本知识图谱补全设计的模型,每个任务关系只有一个相关联的参考实体对,因此通过对模型中的参考实体对分别应用平均池化和最大池化,使其适用于小样本学习场景,使用GMatching进行K-样本知识图谱补全问题的实验(K=5).

4.3 参数设置

将在数据集NELL-One和Wiki-One上的嵌入维度分别设为100和50,Transformer的层数和多头注意力头的数量均设为2,为避免过拟合,关系元学习器和Transformer中Dropout取值分别为0.8和0.4.在训练过程中,应用小批量梯度下降更新模型的网络参数,批量大小为128,损失函数中边界值为0.5.此外,本文使用Adam优化器作为优化器,初始学习率为5×10-5.在每1 000个训练步的验证集上评估本文模型,并在MRR在1 000步内达到最高值时保存最佳模型.

4.4 实验结果

表2列出了在数据集NELL-One和Wiki-One上基线算法和Meta-TKGC模型在选取的3个评价指标上的性能.由表2可见,本文模型优于所选取的基线算法.实验结果证明了应用元学习的有效性,表明考虑查询集及查询集负例中头尾实体的嵌入并结合Transformer可以更好地实现不完全三元组和候选实体间的匹配.与基于嵌入的方法相比,本文模型将由参考集计算得到的关系嵌入迁移到查询集中,并应用Transformer计算实体和关系嵌入,实现了实体、关系以及它们在知识图谱中的交互更充分的表达.与小样本关系学习模型的实验结果相比,Meta-TKGC的效果更好,进一步验证了Tranformer的有效性,而GMatching和MetaR中并未实现对不完全三元组中实体的有效表示,证明了实体嵌入对最终预测的重要性.

4.5 消融实验

为检验模型两个主要模块的有效性,即验证使用CNN建模支持集中实体和关系的信息交互,以及利用Transformer强化查询集及其负例的嵌入表示是否对最终结果产生影响,设计如下两个模型变体与本文的Meta-TKGC模型进行比较,在数据集NELL-One上对应的MRR,Hits@1值列于表3.

1) 移除关系元学习器模块(变体1): 将仅由支持集的头尾实体计算出的任务关系嵌入和待预测头尾实体对拼接成三元组,用匹配处理器衡量其准确度.

2) 去掉Transformer编码器部分(变体2): 在匹配处理器部分,直接使用查询集和负例集实体的原始嵌入,与模型第一部分生成的关系元嵌入共同输入匹配处理器中.

表3 数据集NELL-One上不同模型的实验结果

由表3可见,Meta-TKGC在数据集NELL-One上的性能优于上述两个变体模型,同时实验结果表明,Transformer编码器对预测结果的影响更大,证明了考虑优化查询集及其负例的有效性.

综上所述,本文简要分析了用于解决知识图谱补全问题的各类方法,如基于嵌入的方法、基于规则推理的方法、基于强化学习的方法以及三元组分类的方法,总结了各类方法的特点,并对比分析了一些具有表示性的模型.在此基础上提出了一个结合元学习和Transformer编码器,用实体与关系的相关性建模任务关系,优化不完全三元组中的实体嵌入以完成最终预测的模型——Meta-TKGC.在数据集NELL-One和Wiki-One上的实验结果表明,本文模型在各评价指标上都有良好的性能.模型在架构简单的基础上,训练速度较快,并且可以实现高效且较准确的预测.消融实验也验证了模型的关系元学习器和Transformer编码器对最终结果都有贡献.

猜你喜欢头尾三元组编码器特征标三元组的本原诱导子山西大学学报(自然科学版)(2021年1期)2021-04-21聚酯短纤维头尾丝自动隔离系统的设计毛纺科技(2020年2期)2020-03-16关于余挠三元组的periodic-模五邑大学学报(自然科学版)(2019年3期)2019-09-06基于FPGA的同步机轴角编码器成都信息工程大学学报(2018年3期)2018-08-29磨床头尾架承载变形分析及改进设计精密制造与自动化(2018年1期)2018-04-12猜谜语作文与考试·初中版(2018年6期)2018-03-03基于PRBS检测的8B/IOB编码器设计电子设计工程(2017年20期)2017-02-10JESD204B接口协议中的8B10B编码器设计电子器件(2015年5期)2015-12-29基于三元组的扩频码构造及其性能分析计算机工程与设计(2015年1期)2015-12-20基于FANUC系统IO-LINK通信的曲轴磨床头尾架同步控制制造技术与机床(2015年10期)2015-04-09

推荐访问:图谱 样本 知识