YANG Jie,LIU Na,XU Zhenshun,et al.Survey on pre-trained models fusing knowledge graphs[J].Journal of Taiyuan University of Technology,2024,55(1):142-154.
近年来,深度学习在自然语言处理领域取得了显著进展。其中,预训练模型在关系抽取[1]、文本分类[2]等下游任务中都有优秀的表现。预训练模型是一种通过自监督学习从大规模无标注数据中生成一个基础网络的技术,并将学习到的特征重新进行微调或迁移至另一个目标网络,所生成的网络结构即为“预训练模型”[3]。预训练模型更加注重上下文理解,将训练阶段得到的网络模型应用于后续特定下游任务,避免了繁琐的再训练过程,其优点在于训练成本小,配合下游任务有更快的收敛速度,同时也能有效提高模型性能。
自BERT[4]、ELMO[5]等模型被提出以来,各种预训练模型不断涌现。2023年OpenAI公司正式发布最新的ChatGPT[6](Chat Generative Pre-trained Transformer)人机对话模型,标志着大规模语言模型(large language model,LLM)的成熟,谷歌公司也发布了他们的对标产品PaLM2[7]模型。另一方面,经过微调或蒸馏的小型化大规模语言模型,如LLAMA[8]、GUANACO et al[9]也成为当下的研究热点,并在多项测评中有出色的表现。此外,如QUANTIZATION[10]与SPECLNFER[11]等优化技术使得以更低的资源需求部署大规模语言模型也成为了可能。但一些研究表明[12],这些小型化的大规模语言模型以及面向低资源场景的系统优化技术往往都会带来模型质量的下降,影响最终应用的效果。
因此,面对深层次的专业化自然语言处理任务,将特定种类的知识图谱作为外部知识融合到特定用途的自然语言处理任务中[13]是一种有效途径。首先,知识图谱中的实体和关系信息可以被视为先验知识,在预训练模型训练数据不足时容易出现过拟合或欠拟合的情况,而知识图谱中的实体和关系信息可以作为额外的训练数据,有助于缓解数据稀疏性问题。其次,知识图谱中的实体和关系之间有明确的逻辑关系,可以帮助模型进行推理和推断。最后,知识图谱中的实体和关系信息来自不同的领域,可以支持模型在多个领域之间迁移学习,从而提高模型的泛化能力。如图1所示,结合知识图谱的预训练模型与传统预训练模型的学习方法对比。在预测过程中,传统预训练模型只能通过短距离固定记忆对掩码的字进行预测,难以学习到“北京、共和国”等实体的完整语义。而结合知识图谱的预训练模型通过学习实体关系可以正确预测到“中华人民”所对应的“北京、共和国”等命名实体的关系。
图1 知识学习对比
Fig.1 Comparison of knowledge learning
虽然融合知识图谱到预训练模型会提升模型的效率与准确率,但如何融合也伴随着极大的困难,难点主要包括结构化知识编码、异构信息融合和信息遗忘等问题。其中,如何将实体信息有效表达和编码是一个关键问题;同时,不同领域的知识图谱的信息来源不同,如何将它们融合起来也是一个难点;此外,预训练模型融合外部知识后容易遗失之前训练得到的知识,这也是一个需要解决的问题。这些难点需要通过有效的方法和技术来克服,以实现预训练模型和知识图谱的融合,进一步提高自然语言处理的应用效果。
在现有的将外部知识整合到预训练模型的综述中,大多数研究侧重于不同形式知识的注入方法。例如,HU et al[14]根据自然语言理解(NLU)和自然语言生成(NLG)两个任务引出分类对知识增强型预训练模型进行了归纳。ZHEN et al[15]根据不同的知识类型以及格式对外部知识如何注入预训练模型进行了总结。然而,这些综述未对融合知识图谱到预训练模型的方法进行详尽介绍和突出。因此,需要进一步研究并深入探讨如何有效地融合知识图谱到预训练模型中,以丰富目前综述所包含的知识增强类型。
本文对近年来发表的融合知识图谱到预训练模型的文献进行归纳总结,与现有综述文献的角度不同,本文从预训练模型内部到外部以隐式与显式两类方法对融合知识图谱到预训练模型的方法进行介绍,如图2所示,并对代表模型的特点进行了详细阐述与说明。本文的主要贡献有:
图2 融合知识图谱到预训练模型的方法
Fig.2 Method of fusing knowledge graph into pre-trained model
1) 相比于其他的知识增强型预训练模型综述,本文主要对融合知识图谱的方法进行了分析总结,针对性较强。
2) 以结合知识图谱的预训练模型为切入点,帮助研究人员了解该方向的研究趋势。
3) 最后对融合知识图谱的预训练模型目前存在的问题进行了总结,并提出了相应的解决思路。
预训练模型与知识图谱如今已发展较为成熟,有明确的定义和框架,因而对于相关技术的研究是至关重要的。本节对知识图谱构建与知识图谱表示学习两个方面进行概述。
知识图谱是一种结构化的知识表示方式,它将现实世界中的实体、概念、关系等知识元素以三元组的方式进行表示,形成一个由节点和边组成的图形结构。2012年Google正式提出知识图谱,旨在实现更智能的搜索引擎,并且于2013年以后开始在学术界普及。不仅如此,知识图谱还被广泛应用于智能问答、个性化推荐和情报分析等领域。目前已有的知识图谱可划分为两类,一是存储世界知识百科的通用知识图谱,如链接知识图谱YAGO[16]、多语言辅助型知识图谱WIKIDATA[17]、多语言结构化知识图谱DBpedia[18]以及常识知识图谱ConceptNet[19]等;二是专业领域知识图谱,如糖尿病知识图谱DiaKG[20]、开放学术知识图谱OAG[21]、综合性药物知识图谱DrugBank[22]等。
知识图谱的构建包括数据获取、实体提取、关系抽取、知识融合和知识扩充。在数据获取阶段,需要从不同领域的数据源中收集结构化或半结构化数据,并使用自然语言处理技术对非结构化数据进行实体提取和命名实体识别。在关系抽取阶段,需要使用语义关系提取技术从数据中抽取实体之间的关系。在知识融合阶段,需要对相同实体进行标准化和去重,并使用语义链接技术将它们与其他实体和关系链接起来。最后,在知识扩充阶段,需要不断从结构化和非结构化数据源中提取有价值的信息,并将其转换为可供知识图谱使用的形式,通过不断扩充和优化,提高知识图谱的准确性、完整性和可靠性,从而更好地支持各种应用场景。
知识图谱表示学习旨在将知识图谱中的实体和关系转换为向量形式,从而学习它们在低维向量空间的分布式表示。结合知识图谱到预训练模型需要将知识图谱中的三元组看作是从头实体经过关系到尾实体的翻译过程,不同的翻译模型区别在于打分函数的设计。BORDES et al[23]提出的经典算法TransE的思想是通过向量关系操作得到嵌入向量,使用L1范式和L2范式来衡量三元组对应的3个向量的差距,其目标是让计算的三元组的距离越小越好,L1范式和L2范式的公式如下:
(1)
(2)
式中:Xi表示向量X的第i个属性值,取绝对值。通过使用L1范式与L2范式来衡量两个向量之间的距离,而模型的目标是使得正确的三元组的距离越小越好,错误的三元组其相反数越大越好,数学化公式如式(3)所示:
fr(h,t)=-‖h+r-t‖L1/L2.
(3)
式中:h、r、t分别表示头实体向量、关系向量、尾实体向量,公式含义为h+r与t的L1或L2距离。尽管TransE的参数量小,计算复杂度低,但BORDES et al[23]认为向量空间中的实体类型用一对一的关系可以进行表示嵌入。这使得TransE不能处理一对多、多对一以及多对多等复杂关系类型。基于TransE的不足,研究者们提出了众多优化算法对TransE进行有效扩展。譬如,TRANSH[24]将实体与关系嵌入投影到一个超平面中,来捕捉它们在不同语义空间上的关联;TRANSR[25]则为实体和关系分别引入了投影空间,每个实体和关系都有自己的投影矩阵;TRANSD[26]使用投影向量构建动态映射矩阵来取代欧几里得距离;TRANSA[27]使用马氏距离来实现更自适应的度量学习。通过知识表示学习技术使得多源异质信息表示形式统一,便于迁移和融合,这为融合知识图谱到预训练模型提供了研究基础。
融合知识图谱到预训练模型的方式以隐式或显式结合的方法进行结合。本节针对两类方法以及代表模型进行介绍。
目前研究人员意识到,预训练模型无法仅凭输入文本去解决专业知识型任务。为了解决这个问题,他们提出了一些方法来增加模型对知识的理解能力。其中的两种方法是通过添加与知识相关的预训练任务或修改预训练模型的内部编码器来隐式地整合知识。这样做可以显著提高模型对原始文本中相关知识的把握能力。通过这些方法,模型可以有效利用知识图谱中的实体和关系,进一步优化建模过程,从而提高模型性能。通过这些改进,预训练模型能更好地应对专业领域的需求。
2.1.1基于知识掩码的方法
基于知识掩码的方法是指在预训练模型中加入特殊的掩码机制,以利用知识图谱中的实体和关系信息来指导预训练模型的训练。通常非结构化的文本编码蕴含丰富的上下文语义信息,传统预训练模型使用如掩码语言建模(masked language model,MLM)学习每个词的上下文知识。然而,现有的预训练目标通常是以词牌级别定义的,而文本中包含有价值信息的实体和短语被忽略。如图3所示,通过采用超越单个单词层面的知识任务掩蔽策略,预训练模型可以将实体和短语等知识纳入其中。
图3 基于知识掩码策略
Fig.3 Knowledge-based mask strategy
2020年,XIONG et al[28]提出WKLM(weakly supervised knowledge pre-trained language model)模型。该模型以实体为中心作为训练目标,采用弱监督预训练方法来整合外部实体知识。具体而言,模型使用实体替换策略(replacement entity task,RED)从Wikidata知识库中获取相同类型的其他实体信息,并将其替换原始文档中提及的实体。通过训练模型区分正确的实体提及和随机选择的其他实体提及,来学习实体相关的知识。尽管WKLM模型能够直接从非结构化文本中获取真实世界的知识,但这种方法的缺点是模型过于依赖于记忆实体信息,导致在理解下游任务中的知识方面存在困难。
针对WKLM模型的不足,2021年QIN et al[29]提出ERICA模型,该模型引入了实体辨别任务(entity discrimination task,EDT)和关系辨别任务(relation discrimination task,RDT),并与掩码建模任务一起进行训练。实体辨别任务的目的在给定实体和关系的情况下,预测文本中的尾实体,通过区分文本中的尾实体与其他实体,该任务使得预训练模型更好地理解实体的信息。而关系辨别任务的目标是区分语义上相似和不相似的两个关系,从而促使预训练模型理解真实场景中复杂的推理链,进一步提高模型对关系的理解能力。通过设置的两个任务使得预训练模型在低资源环境下也能帮助训练提高实体和关系的理解。
2021年,WANG et al[30]提出KEPLER模型,该模型设置知识嵌入(knowledge embedding,KE)和预训练语言表示(pre-trained languagE representation,PLER)两个目标联合训练,隐式地将事实知识结合到预训练模型中。传统的知识嵌入模型将每个实体和关系分配一个d维向量并定义一个评分函数来训练嵌入和预测链路。不同的是,KEPLER模型的知识嵌入目标是将知识图谱中的实体和关系作为分布式表示进行编码,从而达到与传统知识嵌入模型相同的效果。在文本上的预训练为避免灾难性遗忘采用掩码建模任务作为预训练目标,使用RoBERTa[31]的原始参数进行初始化,通过同时使用知识嵌入与掩码建模任务模型将事实知识和语言表示对应到相同的语义空间中,从而提高模型性能。但联合训练这种方法会给预训练模型带来两个潜在缺点:一是将知识不加区分的注入到预训练模型句子的实体中,会给预训练模型带来冗余和不相关的信息;二是在推理和微调过程中都需要大规模知识图谱,给预训练模型带来额外计算负担。
针对外部知识注入到预训练模型会带来冗余信息的缺点,2022年ZHANG et al[32]提出DKPLM(decomposable knowledge-enhanced pre-trained language model)模型,作者使用长尾实体用于表示很少出现在预训练语料库中的实体,通过知识感知的长尾实体检测机制,在预训练阶段加强这种长尾实体的学习可以增强对文本上下文的理解,从而增强语言表示。为此,作者提出一种KLT度量方法来计算实体e的长尾实体程度,其打分函数如公式(4)所示:
KLT(e)=I{Freq(e)<Rfree}·SI(e)·KC(e) .
(4)
式中三项分别表示出现频率、语义重要性以及一个预定义的阈值。为增强PLM对长尾实体的理解能力,作者注入一个知识三元组为长尾实体嵌入替换为伪词牌嵌入,目的在于如果预测训练数据中出现了头实体,则用它相关的关系谓词和尾实体替换它的嵌入,反之亦然。DKPLM模型在实体分类和关系分类上的F1得分比RoBERTa高2.1%和2.87%,证实了将长尾实体知识纳入预训练模型可以在知识感知下游任务中获得更好的效果。
2.1.2修改内部编码结构的方法
修改内部编码结构的方法是指修改原有的编码器结构使其具备处理知识图谱中的知识信息的一种方法,如图4所示,其主要方法为在模型内部添加一个额外的编码器层来处理外部知识或改变模型本身的编码方式。
图4 修改编码结构的方法
Fig.4 Modification of the encoding structure
2019年,ZHANG et al[33]提出了ERNIE(enhanced language representation with informative entities)模型,该模型综合考虑了文本表示和知识图谱中的实体表示。在Transformer编码器(T-Encoder)后增设了一个知识编码器(K-Encoder),以此将文本标记表示和实体表示映射到同一向量空间。文本编码器作为ERNIE模型的核心部分,其作用是对文本进行编码来获取语义信息,方便下游任务。另一个重要组成部分知识编码器将输入的知识图谱转化为高维向量表示,与文本编码器进行交互并通过注意力机制来捕捉文本与知识的关系,从而提高模型性能。虽然ERNIE证明了融合知识图谱增强预训练模型的可行性和有效性,但它没有考虑实体之间的关系信息,这使得知识上下文不能随着文本上下文改变。
2019年PETERS et al[34]提出KnowBERT(knowledge enhanced BERT)模型,该模型设计了一个知识注意力情境重构层(The Knowledge Attention and Recontextualization component,KAR),并将其添加进Transformer编码器之间,KAR接受特定层的上下文作为输入,并计算结合Transformer编码后语境信息的知识增强状态,然后输入到预训练层进行后续编码。为重新语境化过程,作者设计了一个实体链接器负责对每个候选实体进行实体消歧,从而获得包含原文语境信息与实体语境信息的特征表示。但这样设计使得KnowBERT模型需要重新更新预训练模型的全部参数,影响KnowBERT模型的训练速度。
2020年HE et al[35]提出BERT-MK(BERT-based language model integrated with medical knowledge)模型,该模型结构类似于ZHANG et al提出的ERNIE模型,但与ERNIE在知识编码器设置的聚合器模块不同的是BERT-MK在知识编码器模块设置了一个图语境化知识嵌入模块(graph contextualized knowledge embedding,GCKE),该模块针对给定的文本,首先检索相关的实体三元组,并在知识图谱上搜集其相邻节点以构成子图从而获得更好的知识表示,并输入给传统的Transformer模型,通过特殊的掩码手段来约束注意力获得相邻节点作为实体补充信息,而在编码器层编码的知识表示有更为丰富的实体信息。但图语境化知识嵌入模块的加入使得模型更加复杂,训练更新成本大大增加。
针对以上模型的不足,2021年SU et al[36]提出的CokeBERT模型可以根据文本上下文利用任意大小的动态子图作为知识上下文。该模型设计了3个编码器,包括文本编码器(T-Encoder)、动态知识语境编码器(DK-Encoder)和知识融合编码器(K-Encoder)。其中,文本编码器使用Transformer编码器计算输入文本的嵌入,并将得到的原始文本的上下文表示为一个子图;在动态知识语境编码器层,作者提出了一种语义驱动的图神经网络(S-GNN),将文本编码器层得到的子图中的每一个实体初始化为S-GNN的输入特征,由S-GNN按照子图中实体之间的结构对信息进行聚合,并调整信息特征的权重以此来得到与原始文本上下文相关的知识并将其嵌入到预训练模型中;最后知识融合编码器将文本上下文和动态知识上下文嵌入融合,以更好地理解语言。该模型证明了有效选择知识语境能够增强语言理解的有效性。
2021年LIU et al[37]提出KG-BART(Knowledge Graph-Augmented BART)模型,该模型遵循BART[38]模型架构,但作者引入了一个概念扩展图来增强传统的Transformer编码器,并以此来捕获概念集之间的关系。通过将知识图谱与文本输入相结合,利用图注意机制实现对实体导向的知识信息进行编码,以及对文本表示进行增强,从而生成更自然合理的输出。该模型可以扩展到任何seq2seq预训练模型,如T5[39]和MASS[40].实验结果表明,KG-BART在BLEU-3、4方面的性能分别优于BART 15.98%、17.49%。实验结果证明,KG-BART具有更好的通识关系推理和文本泛化能力。
2022年DONG et al[41]提出KERM(knowledge enhanced re-ranking model)模型,作者认为将现有的知识图谱直接引入当前的模型是不合适的,因为知识图谱通常并不完整。基于此,作者设计了知识图蒸馏与知识聚合两个模块,在知识图蒸馏模块,将一个给定的全局知识图使用TransE算法计算距离较小的知识三元组作为可靠性知识,并对其进行顶部修建,得到一个可靠的知识元图。受CokeBERT的启发,作者在知识聚合模块设定了一个查询通道,对得到的知识元图中的实体进行标注,最终将标注的知识与文本语料库结合起来,完成段落重新排序任务,并且在领域知识的查询中,实验结果证明了该方法的有效性。同样将专业领域知识用于预训练模型的还包括SciBERT[42],BioBERT[43],PubMedBERT[44].
2022年,YU et al[45]提出了JAKET(joint pre-training framework for knowledge graph and text)模型,该模型框架分为知识模块和语言模块。其中知识模块采用图注意网络和组合算子对知识图谱中的实体和关系进行建模生成具有结构化信息的嵌入表示。语言模块接受知识模块输出基于知识的嵌入表示。然而两个模块直接的信息互补和交替训练会导致循环依赖问题,为了解决这个问题,作者将12层Transformer编码器结构进行了拆分。前6层用于编码输入文本和初始化实体嵌入,初始化后的实体嵌入被图注意力网络用于学习知识图谱结构信息,并与词汇嵌入一起输送到后6层。后6层则负责将输入的词汇嵌入相互聚合,从而输出知识增强后的文本嵌入。
以上从隐式结合的两种方式对结合知识图谱的预训练的经典模型进行了归纳整理,其优缺点如表1所示。基于知识掩码的方法尽管可以利用任务来指导预训练模型的训练,但也可能使得预训练模型在处理其他任务或领域时,需要重新设计和调整知识引导的策略。而修改内部编码结构的方法如何对使用不同的知识表示策略对预训练模型的性能产生的影响,需要进行深入研究。
表1 隐式结合的模型对比
Table 1 Model comparison for implicit binding
方式模型任务知识库优点缺点评价标准适用任务基于知识掩码的方法WKLM[28]MLM+REDWikipedia、WikiData[17]模型不引入参数进行训练只利用了实体信息,对三元组关系没有充分利用Hits@10知识问答;实体识别ERICA[29]EDT+RDTWikipedia、WikiData[17]对实体与关系的利用更加充分训练开销较大RE、QA、ET关系提取;实体类型;问题回答KEPLER[30]MLM+NSPConceptNet[19]、Wikipedia不引入任何参数实现知识融合对知识图谱要求较高P@1关系分类;实体识别DKPLM[32]MLM+DEWikipedia训练速度快;对实体信息把握更全面对歧义信息较难处理LAMA文本分类;命名实体识别;关系抽取修改内部模块的方法ERNIE[33]MLM+NSP+dEAWikipedia、WikiData[17]兼容原版的BERT模型;可融合多种知识图谱语言表示空间难对齐;模型结构较复杂Accuracy、Mac-ro、Micro一般任务都能适用KnowBERT[34]MLM+NSP+ELYAGO[16]任何下游问题都可以微调需要更新预训练参数,训练较慢Recall、Preci-sion、F1文本分类;命名实体识别;关系抽取;问答系统BERT-MK[35]MLM+KEPubMed可以针对目标训练更合理的实体嵌入模型结构复杂,训练更新成本高Recall、Preci-sion、F1文本分类、命名实体识别、关系抽取、情感分析CokeBERT[36]MLM+NSP+dEAWikipedia、WikiData[17]可动态选择知识语境推理开销大;模型较复杂Recall、Preci-sion、F1文本分类、命名实体识别、关系抽取、情感分析KERM[41]MLM+SRPConceptNet[19]、KagNet对知识图谱只能一对一利用模型较复杂MRR@10、MAP@10领域知识查询JAKET[45]MLMConceptNet[19]、Wikipedia模型训练速度快需要大量的训练数据Accuracy少样本关系分类;知识问答;实体分类
在知识图谱中,知识的自然语言表达方式与预训练模型有着较大差异。因此,许多研究人员试图通过对模型添加插件或调整模型的额外输入来显性整合知识图谱中的信息。
2.2.1利用功能插件的方法
功能插件一般具有较小的参数量,而利用功能插件进行训练有助于减少模型的复杂性和计算资源的消耗,并且功能插件可以对不同的知识图谱或任务进行扩展与调整,在不改变原模型的结构基础上处理特定的知识图谱相关任务。如图5所示,常见的功能插件包括外接适配器和外接知识检索器等。在预训练模型训练过程中,外接适配器可以较为灵活地扩展模型,而外接知识检索器则可通过引入相应的知识图谱进行知识的融合,具有一定的增强模型能力的程度。
图5 添加功能插件的方法
Fig.5 Method of adding a functional plug-in
2019年,LOGAN et al[46]提出KGLM模型,该模型具有从一个局部动态知识图中选择和复制出与上下文相关的事实机制,这些机制使模型能够呈现出以前从未见过的信息,以及生成超出词汇表的词牌,同时KGLM也可根据生成的新词牌来添加新实体扩充局部图谱。该模型将局部图谱与标准词汇表结合,可提供数字或日期及其他罕见实体。通过这种方法,模型能够更好地理解和处理自然语言中的复杂语义信息,提高了模型的准确性和鲁棒性。
2020年,GUU et al[47]提出了REALM模型,该模型设置了一个神经知识检索器和知识增强编码器,以便在推理过程中检索和使用相关知识。REALM采用了无监督的方式对知识检索器进行预训练,用于检索知识图谱中的知识信息。此外,该模型使用了掩码语言建模(MLM)作为学习信号,以决定推理结果。尽管通过检索器与编码器的结合,模型可以获得更准确的预测结果,但这使得REALM模型比其他模型需要更多的计算资源。
2021年,WANG et al[48]提出的K-Adapter模型则巧妙地解决了计算资源消耗高的问题,该模型以RoBERTa为预训练模型,在推理过程中引入了适配器(Adapter)结构,适配器是一种轻量级的神经网络结构,将其添加到预训练模型上来处理特定任务。在选择性适配阶段,K-Adapter模型根据不同任务和领域的需求,在预训练模型中选取适配器进行插入。适配器与模型的主干网络相连接,负责处理特定任务和领域的知识。在多任务训练阶段,K-Adapter通过联合训练多个适配器来提升模型的整体性能。通过共享主干网络,适配器可以同时学习各自任务的专属特征,并通过梯度反向传播与主干网络进行参数更新。模型在输入知识图谱的实体和关系时,通过适配器结构的灵活性、可插拔性和可复用性来扩展和增强模型的关系预测性能,从而在不影响原预训练模型的情况下增强推理能力。
2.2.2扩展嵌入信息的方法
扩展嵌入信息的方法如图6所示,通过对知识图谱中的知识信息进行嵌入向量生成,可以将复杂的关系结构转化为低维向量表示,以便于与原始文本相结合。同时,在预训练模型中加入知识图谱嵌入向量能够扩展词嵌入空间,提供更多的上下文信息,进一步优化模型的推断准确性。具体实现方式包括知识向量与文本向量拼接、设置特殊位置标记嵌入等。
图6 扩展嵌入信息的方法
Fig.6 Extension approach to embedding information
2019年,LIU et al提出的KALM[49](knowledge-augmented language model)模型对知识图谱中给定的实体按类型区分并进行拼接,其输入端如图7所示。作者认为传统语言模型无法对文本中的实体进行有效建模,主要是因为这些实体不会在文本中频繁出现,而实体类别却常常出现在同一语义下,因此作者对知识图谱中的实体类型信息标明了实体所属的具体类别(如人名、地名等),并通过双向长短时记忆网络[50](long short term memory,LSTM)对词表中的词或实体词进行预测,最后将词汇向量与实体类别向量拼接作为模型的输入。
图7 KALM模型输入端过程
Fig.7 KALM input terminal process
2020年POERNER et al[51]提出的E-BERT模型在不改变模型编码结构的前提下完成对模型性能的增强,该模型将Wikipedia2Vec[52]中的词向量映射到BERT的词嵌入向量空间中,得到一个映射矩阵,再通过这个映射矩阵对Wikipedia2Vec中的实体向量进行映射,然后使用字符串连接函数将实体id和单词组合在一起,并用实体向量代替实体表面形式进行消融,最终将获得的实体信息注入到BERT的输入中。该模型与KnowBert模型类似,但不需要在编码层进行再训练,有效减少了预训练模型的训练成本。
以上工作都集中于结构化的自然语言知识,从大规模知识图中注入同质实体和关系知识,而忽略了通常存在的异构场景问题。为解决此问题,2021年LIU et al[53]提出了OAG-BERT模型,模型输入端如图8所示,OAG-BERT模型以公共学术开放学术知识图谱为基础,将文本、作者、概念、地点等关系等异构实体来作为知识信息进行扩展。作者针对不同的实体类型,设计了异构实体类型嵌入,对类别嵌入改变它们的序列顺序,而对未知嵌入设计了二维位置编码,第一个维度为实体间的顺序,用于表示词牌在哪个实体中;第二个维度用于实体内部顺序,用于指示词序列。通过这种方式,模型将两个位置嵌入加在一起从而得到最终位置嵌入。OAG-BERT模型尽管解决了异构实体问题,但模型性能与解决NLP任务的学术预训练模型相当。
图8 OAG-BERT模型输入端结构
Fig.8 Structure of the input side of the OAG-BERT model
2021年SUN et al[54]提出ERNIE3.0模型,该模型融合自回归网络与自编码网络,并且通过共享的方式对引入的多种自定义任务进行训练,这种方法可以实现原始文本与知识图谱平行预训练,在训练过程中,ERNIE3.0引入了通用知识-文本预测任务(universal knowledge-text prediction,UKTP)对文本端与知识端进行联合训练。其中在文本端,原始数据中的无标注知识词汇被掩蔽,模型通过对知识图谱中的结构化信息对被掩蔽的文本端信息进行还原;在知识端,知识图谱中的知识信息被掩蔽,模型通过对原始文本中的信息对被掩蔽的信息进行推理。通过这种方式不仅解决异构结构难以统一建模的难点也增强模型对知识的推理能力。
2.2.3变换嵌入结构的方法
基于变换嵌入结构的方法是将知识图谱的知识信息扩展为较复杂的树或图结构,如图9所示。通过扩展词嵌入的方式可以将知识图谱中的知识融合到模型的输入端。但需要考虑解决结构化知识编码的问题。
图9 变换输入结构的方法
Fig.9 Method of transforming input structure
2020年,LIU et al[55]提出的K-BERT模型先注入相关的三元组数据到知识层,扩展为富知识的句子树,再输入到嵌入层和可视层中生成词的嵌入向量和可视矩阵,最终得到每个词的表示向量。如图9(a)所示。模型输入的是句子树,不能按照BERT的输入进行编码,因此需要重新设置位置标号来解决此问题。在设置位置编号时会出现与实际无关的词汇,因为相同的软位置标号会产生联系,导致句子意思发生改变。为此,使用掩码自注意机制来屏蔽Transformer编码器对特定词牌的影响,这类似于图注意网络[56]的工作原理。K-BERT的不足之处在于使用一个单独的知识嵌入模型学习,使得不容易与语言表示空间对齐。
针对K-BERT模型的不足之处,2020年SUN et al[57]提出的CoLAKE(Contextualized Language and Knowledge Embedding)模型可以通过知识图谱抽取文本中的实体子图,如图9(b)所示,作者将每个单词作为一个节点,并将子图中的共现单词连接起来,构成词知识图(word knowledge graphs,WK).为了适应WK图的输入,CoLAKE模型修改了Transformer编码器中的嵌入层和编码器层,从而直接学习每个唯一实体和关系的嵌入,并使用软位置索引,允许重复位置索引,确保词牌在相同的三元组中连续。最终,文本上下文和知识上下文通过掩码语言模型一起用于预训练,并且掩码的范围被扩展到词、实体和关系。CoLAKE模型通过采用CPU-GPU混合训练策略和负采样机制减少训练时间。同年,BIAN et al[58]提出的CQA模型将多个与问题相关的知识三元组按照预定义的模板转换为文本,将问题和备选答案一起输入模型进行训练,不仅解决了知识与文本之间的异构问题,还可以达到知识增强的效果。
部分模型在实体类型与关系分类上的得分评估如表2所示,在实体类型任务中,采用人工标记的Figer数据集。在该数据集上,KEPLER模型取得了最高的得分,综合来看,KEPLER模型与CokeBERT模型在任务中表现较好。由表2可以看出,在关系分类任务中,使用FewRel与TACRED两个基准数据集,KEPLER在两个数据集上的性能都优于其他3个模型,其原因在于KEPLER使用联合优化知识嵌入对文本实体进行编码,能获得更好的得分。
表2 部分模型任务得分表
Table 2 Part of the model task score table
模型实体类型Figer关系分类FewRelTACREDKEPLER77.490.572.0KnowBERT75.089.268.9K-BERT73.884.367.1CokeBERT77.889.468.9
2022年YU et al[59]首次提出通过在常识图上进行多样化的知识推理模型MoKGE(mixture of knowledge graph experts),该模型包括两个组成部分:一是知识图谱增强的生成推理模块,该模块首先从给定序列的知识图谱中构建序列相关子图,然后通过多关系图卷积网络(R-GCN)[60]对概念节点的关系信息进行迭代更新,并选择其中突出的概念,最后将这些概念的实体嵌入与输入序列的词嵌入整合起来,用于生成推理输出;二是混合专家模块,该模块主要作为增加模型输出多元化的一种方法,作者设置不同的“专家”在不同的知识图上寻找不同的概念集,最终将选择的概念生成多个输出,以此产生合理的推理结果。通过混合专家模块与生成推理模块的结合,MoKGE模型在多样性方面优于目前最先进的知识推理模型。
以上从显式结合的3种方式对结合知识图谱的预训练的经典模型进行了归纳整理,其模型优缺点如表3所示。3种方法对预训练模型处理NLU与NLG任务提供了一定的助力,但整体模型结构相较隐式结合复杂,未来可以在利用知识信息度的问题上着手,以此来增强模型的效能。
表3 显式结合代表模型对比
Table 3 Explicit association represents model comparison
方式模型任务知识库优点缺点评价标准适用任务利用功能插件KGLM[46]-WikiData[17]可动态增长本地知识图谱可解释性较差Perplexity跟踪实体;生成事实REALM[47]MLMWikipedia具有高效性;通用性强可解释性差;数据要求高F1知识问答K-Adapter[48]FA+LAWikiData[17]灵活性强;适配器即插即用注入知识需全面考虑P@1文本分类;命名实体识别;关系抽取扩展嵌入信息KALM[49]-Wikipedia灵活性强;可扩展可解释性差;数据要求高Perplexity命名实体识别;关系提取E-BERT[51]-Wikipedia模型结构改动小;通用性强对数据要求较高Hits@1文本分类、情感分析、命名实体识别OAG-BERT[53]SaeMAminer效用性强;可解释性好模型结构较复杂Hit@1、MRR学术领域的论文分类、作者实体链接变换嵌入结构K-BERT[55]MLM+NSPDbpedia[18]、MedicalKG在特定领域性能优异只能融合单一知识图Recall、Precision、F1文本分类、命名实体识别、关系抽取CoLAKE[57]MLMWikipedia对模型结构改动小,可融合多种知识图谱对结构化知识强依赖的下游任务没有改进Recall、Precision、F1知识图谱补全、实体链接MoKGE[59]-ComVE自然语言生成内容较多样对知识数据要求较高BLEU、ROUGE知识图谱嵌入、实体关系预测
融合知识图谱到预训练模型是近年来自然语言处理领域的热门研究方向,其思想是将外部知识库中的信息融合到预训练模型中,以增强模型的语义理解能力和推理能力。经过多年的发展,该技术已经取得了一系列令人瞩目的成果,但同时也面临着一些挑战和机遇。
首先,核心问题是解决如何将知识库中的信息有效地融合到预训练模型中。目前,主流的方法包括改变预训练模型输入结构、改变预训练模型内部编码器、利用外部插件等。但是,上述方法仍存在一些局限性,如改变模型内部编码器的复杂度过高、外接功能插件的泛化能力不足等等。因此,在今后可以探索更加有效和高效的知识融合方法,以提高模型的性能和泛化能力。
其次,数据稀疏和噪声的问题不容忽视。知识图谱虽然包含了大量的实体和关系信息,但是由于知识库的构建和更新成本较高,导致其中的数据存在较大的稀疏性和噪声。这些问题会直接影响模型的性能和可靠性,因此需要采取一些有效的方法来解决。例如,可以通过生成式方法来扩充知识库中的实体和关系信息,或者采用半监督学习和弱监督学习等方法来解决数据稀疏和噪声的问题。
最后,未来还可以从以下3方面进行探讨,一是将多个知识库融合到模型中,以提高模型的覆盖范围和推理能力;二是将知识图谱和其他外部信息源进行融合,例如图像、视频等,以拓展模型的应用场景;三是将融合方法应用到更加复杂的任务中,例如多重语义关系理解、复杂推理关系等,以提高模型的功能和实用性。
[1] WEI Z,SU J,WANG Y,et al.A novel cascade binary tagging framework for relational triple extraction[C]∥Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,2020:1476-1488.
[2] CHEN X,CONG P,LV S.A long-text classification method of Chinese news based on BERT and CNN[J].IEEE Access,2022,10:34046-34057.
[3] RADFORD A,NARASIMHAN K,SALIMANS T,et al.Improving language understanding by generative pre-training[J].2018:1-12.
[4] DEVLIN J,CHANG M W,LEE K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]∥Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2019:4171-4186.
[5] PETERS M E,NEUMANN M,LOGAN R,et al.Knowledge enhanced contextual word representations[C]∥Proceedings of the 2018 Conference of the North American Chapter of the Associa tion for Computational Linguistics:Human Language Tech nologies,New Orleans,2018:2227-2237.
[6] OPENAI O.GPT-4 technical report[EB/OL].[2023-10-19].https:∥arxiv.org/pdf/2303.08774.pdf.
[7] ANIL R,DAI A M,FIRAT O,et al.Palm 2 technical report[EB/OL].[2023-09-13].https:∥arxiv.org/pdf/2305.10403.pdf.
[8] TOUVRON H,LAVRIL T,IZACARD G,et al.Llama:open and efficient foundation language models[EB/OL].[2023-02-27].https:∥arxiv.org/pdf/2302.13971.pdf.
[9] DETTMERS T,PAGNONI A,HOLTZMAN A,et al.QLoRA:efficient finetuning of quantized LLMs[EB/OL].[2023-05-23].https:∥arxiv.org/pdf/2305.14314.pdf.
[10] NAGEL M,BAALEN M,BLANKEVOORT T,et al.Data-free quantization through weight equalization and bias correction[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision.2019:1325-1334.
[11] MIAO X,OLIARO G,ZHANG Z,et al.SpecInfer:accelerating generative LLM serving with speculative inference and token tree verification[EB/OL].[2023-08-16].https:∥arxiv.org/pdf/2305.09781.pdf.
[12] GUDIBANDE A, WALLACE E, SNELL C, et al. The false promise of imitating proprietary LLMs[EB/OL].[2023-05-25].https:∥arxiv.org/pdf/2305.15717.pdf.
[13] PETRONI F, ROCKTSCHEL T, LEWIS P, et al.Language models as knowledge bases?[EB/OL].[2019-09-04].https:∥arxiv.org/pdf/1909.01066.pdf.
[14] HU L, LIU Z, ZHAO Z, et al.A Survey of knowledge-enhanced pre-trained language models[EB/OL].[2023-08-30].https:∥arxiv.org/pdf/2211.05994.pdf.
[15] ZHEN C, SHANG Y, LIU X, et al.A survey on knowledge-enhanced pre-trained language models[EB/OL].[2022-12-27].https:∥arxiv.org/pdf/2212.13428.pdf.
[16] MAHDISOLTANI F,BIEGA J,SUCHANEK F.Yago3:a knowledge base from multilingual wikipedias[C]∥7th Biennial Conference on Innovative Data Systems Research.CIDR Conference,2014:1-11.
[17] VRANDECIC D,KRÖTZSCH M.Wikidata:a free collaborative knowledgebase[J].Communications of the ACM,2014,57(10):78-85.
[18] LEHMANN J,ISELE R,JAKOB M,et al.Dbpedia-a large-scale,multilingual knowledge base extracted from wikipedia[J].Semantic Web,2015,6(2):167-195.
[19] SPEER R,CHIN J,HAVASI C C N.5.5:An open multilingual graph of general knowledge[C]∥Proceedings of the Thirty-first AAAI Conference on Artificial Intelligence,2016:4444-4451.
[20] CHANG D,CHEN M,LIU C,et al.Diakg:an annotated diabetes dataset for medical knowledge graph construction[C]∥Knowledge Graph and Semantic Computing:Knowledge Graph Empowers New Infrastructure Construction:6th China Conference,CCKS 2021,Guangzhou,China,2021:308-314.
[21] WANG K,SHEN Z,HUANG C,et al.Microsoft academic graph:when experts are not enough[J].Quantitative Science Studies,2020,1(1):396-413.
[22] WISHART D S,KNOX C,GUO A C,et al.DrugBank:a comprehensive resource for in silico drug discovery and exploration[J].Nucleic Acids Research,2006,34:668-672.
[23] BORDES A,USUNIER N,GARCIA-DURN A,et al.Translating embeddings for modeling multi-relational data[C]∥Proceedings of the 26th International Conference on Neural Information Processing Systems,2013,2:2787-2795.
[24] WANG Z,ZHANG J,FENG J,et al.Knowledge graph embedding by translating on hyperplanes[C]∥Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence,2014:1112-1119.
[25] LIN Y,LIU Z,SUN M,et al.Learning entity and relation embeddings for knowledge graph completion[C]∥Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence,2015:2181-2187.
[26] JI G,HE S,XU L,et al.Knowledge graph embedding via dynamic mapping matrix[C]∥Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,2015:687-696.
[27] XIAO H,HUANG M,HAO Y,et al.TransA:an adaptive approach for knowledge graph embedding[EB/OL].[2015-09-28].https:∥arxiv.org/pdf/1509.05490.pdf.
[28] XIONG W,DU J,WANG W Y,et al.Pretrained encyclopedia:weakly supervised knowledge-pretrained language model[C]∥Proceedings of the 8th International Conference on Learning Representations,Addis Ababa,2020:1-22.
[29] QIN Y,LIN Y,TAKANOBU R,et al.ERICA:Improving entity and relation understanding for pre-trained language models via contrastive learning[C]∥Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing,2021:3350-3363.
[30] WANG X,GAO T,ZHU Z,et al.KEPLER:a unified model for knowledge embedding and pre-trained language representation[J].Transactions of the Association for Computational Linguistics,2021,9:176-194.
[31] LIU Y,OTT M,GOYAL N,et al.Roberta:a robustly optimized bert pretraining approach[EB/OL].[2019-07-26].https:∥arxiv.org/pdf/1907.11692.pdf.
[32] ZHANG T,WANG C,HU N,et al.Dkplm:decomposable knowledge-enhanced pre-trained language model for natural language understanding[C]∥Proceedings of the AAAI Conference on Artificial Intelligence,2022,36(10):11703-11711.
[33] ZHANG Z,HAN X,LIU Z,et al.ERNIE:enhanced language representation with informative entities[C]∥Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics,2019:1441-1451.
[34] PETERS M E,NEUMANN M,LOGAN R,et al.Knowledge enhanced contextual word representations[C]∥Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP),2019:43-54.
[35] HE B,ZHOU D,XIAO J,et al.BERT-MK:integrating graph contextualized knowledge into pre-trained language models[C]∥Findings of the Association for Computational Linguistics:EMNLP 2020,2020:2281-2290.
[36] SU Y,HAN X,ZHANG Z,et al.CokeBert:contextual knowledge selection and embedding towards enhanced pre-trained language models[J].AI Open,2021,2:127-134.
[37] LIU Y,WAN Y,HE L,et al.Kg-bart:knowledge graph-augmented bart for generative commonsense reasoning[C]∥Proceedings of the AAAI Conference on Artificial Intelligence,2021,35(7):6418-6425.
[38] LEWIS M,LIU Y,GOYAL N,et al.BART:denoising sequence-to-sequence pre-training for natural language generation,translation,and comprehension[C]∥Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,2020:7871-7880.
[39] RAFFEL C,SHAZEER N,ROBERTS A,et al.Exploring the limits of transfer learning with a unified text-to-text transformer[J].The Journal of Machine Learning Research,2020,21(1):5485-5551.
[40] SONG K,TAN X,QIN T,et al.MASS:masked sequence to sequence pre-training for language generation[C]∥International Conference on Machine Learning,PMLR,2019:5926-5936.
[41] DONG Q,LIU Y,CHENG S,et al.Incorporating explicit knowledge in pre-trained language models for passage re-ranking[C]∥Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval,2022:1490-1501.
[42] BELTAGY I,LO K,COHAN A.SciBERT:a pretrained language model for scientific text[C]∥Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP),2019:3615-3620.
[43] LEE J,YOON W,KIM S,et al.BioBERT:a pre-trained biomedical language representation model for biomedical text mining[J].Bioinformatics,2020,36(4):1234-1240.
[44] GU Y,TINN R,CHENG H,et al.Domain-specific language model pretraining for biomedical natural language processing[J].ACM Transactions on Computing for Healthcare (HEALTH),2021,3(1):1-23.
[45] YU D,ZHU C,YANG Y,et al.Jaket:Joint pre-training of knowledge graph and language understanding[J].Proceedings of the AAAI Conference on Artificial Intelligence,2022,36(10):11630-11638.
[46] LOGAN R,LIU N F,PETERS M E,et al.Barack’s wife hillary:using knowledge graphs for fact-aware language modeling[C]∥Annual Meeting of the Association for Computational Linguistics (ACL),2019:5962-5971.
[47] GUU K,LEE K,TUNG Z,et al.REALM:retrieval-augmented language model pre-training[C]∥Proceedings of the 37th International Conference on Machine Learning,2020:3929-3938.
[48] WANG R,TANG D,DUAN N,et al.K-adapter:infusing knowledge into pre-trained models with adapters[C]∥Findings of the Association for Computational Linguistics:ACL-IJCNLP 2021,2021:1405-1418.
[49] LIU A,DU J,STOYANOV V.Knowledge-augmented language model and its application to unsupervised named-entity recognition[C]∥Proceedings of NAACL-HLT,2019:1142-1150.
[50] CHEN Z,SHI X,WANG H.Convolutional LSTM network:A machine learning approach for precipitation nowcasting[C]∥Proc Adv Neural Inf Process Syst,2015:802-810.
[51] POERNER N,WALTINGER U,SCHÜTZE H.E-BERT:efficient-yet-effective entity embeddings for BERT[C]∥Findings of the Association for Computational Linguistics:EMNLP,2020,803-818.
[52] YAMADA I,ASAI A,SAKUMA J,et al.Wikipedia2Vec:An efficient toolkit for learning and visualizing the embeddings of words and entities from wikipedia[C]∥Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing:System Demonstrations,2020:23-30.
[53] LIU X,YIN D,ZHENG J,et al.Oag-bert:Towards a unified backbone language model for academic knowledge services[C]∥Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining,2022:3418-3428.
[54] SUN Y,WANG S,FENG S,et al.Ernie 3.0:Large-scale knowledge enhanced pre-training for language understanding and generation[J].arXiv preprint arXiv:2107.02137,2021:1-22.
[55] LIU W,ZHOU P,ZHAO Z,et al.K-Bert:enabling language representation with knowledge graph[C]∥Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(3):2901-2908.
[56] VELICKOVIC P, CUCURULL G, CASANOVA A, et al.Graph attention networks[EB/OL].[2018-02-04].https:∥arxiv.org/pdf/1710.10903.pdf.
[57] SUN T,SHAO Y,QIU X,et al.CoLAKE:Contextualized language and knowledge embedding[C]∥Proceedings of the 28th International Conference on Computational Linguistics,2020:3660-3670.
[58] BIAN N,HAN X,CHEN B,et al.Benchmarking knowledge-enhanced commonsense question answering via knowledge-to-text transformation[C]∥Proceedings of the AAAI Conference on Artificial Intelligence,2021,35(14):12574-12582.
[59] YU W,ZHU C,QIN L,et al.Diversifying content generation for commonsense reasoning with mixture of knowledge graph experts[C]∥Proceedings of the 2nd Workshop on Deep Learning on Graphs for Natural Language Processing,2022:1-11.
[60] SCHLICHTKRULL M,KIPF T N,BLOEM P,et al.Modeling relational data with graph convolutional networks[C]∥The Semantic Web:15th International Conference,ESWC 2018,Heraklion,Crete,Greece,2018:593-607.