LUO Yuanyuan,YANG Chunming,LI Bo,et al.A clinical event extraction method based on a high-confidence pseudo-label data selection algorithm[J].Journal of Taiyuan University of Technology,2024,55(1):204-213.
事件抽取(event extraction,EE)是构建高质量事件知识图谱的前提[1]。临床医学事件抽取是指自动地从患者临床数据中提取有关疾病诊疗的某一主医学实体、相关实体及属性信息。临床医学文本中蕴含的临床医学事件反映了某一疾病的产生、发展、变化的过程,其中包含了大量的临床部位、手术、药物、专业检查及指标数值等信息,展示出患者疾病演化过程,也记录了诊疗方案的调整过程。自动地从大量的临床医学数据中抽取出临床医学事件构建临床医学事件图谱[2](event knowledge graph,EKG),能为后续的临床诊断、药物发现、治疗方案提供支持。
临床医学事件抽取包含两个步骤:1) 事件元素抽取,2) 事件元素关联。事件元素是指自由临床文本中的与诊疗相关的医学实体及属性,如全国知识图谱与语义计算大会(china conference on knowledge graph and semantic computing,CCKS)的测评任务四[3]定义一个医疗事件的主要对象为肿瘤,需要抽取出(肿瘤原发部位,原发部位的病灶大小,肿瘤转移部位)这样的三元组形式的数据,通过这样的抽取方式,将文本结构化,反映出肿瘤的发展变化过程。这些数据对后续具体的医疗决策、治疗顺序、用药情况等有极大的帮助。一个肿瘤转移的医疗事件如图1所示。
图1 一个主实体为肿瘤的医疗事件例子
Fig.1 An example of a medical event where the primary entity is a tumor
抽取出一个肿瘤转移事件主要是要抽取出里面的原发部位、病灶大小、转移部位3种事件元素,原发部位和转移部位都是医学实体,病灶大小也可看作一种特殊的实体,所以把临床医学事件抽取任务整体建模为实体识别任务。而一个医疗事件组成元素分布在医学文本的多个句子内,各个事件元素分布极其不均匀,事件元素的形式多样,保证事件元素抽取的准确性和抽取出的事件元素能组合为一个事件是一个难题。除此之外,现有的临床医学语料中含有标记的数据较少,而无标注的数据较多,如何利用无标签数据来提升事件抽取性能也是值得思考的问题。
针对临床医学文本的事件元素抽取困难、元素组合为事件困难等问题,提出一种融合多特征的中文医学事件抽取方法BERT-MCRF(bidirectional encoder representation from transformers-multi-featured conditional random fields),该方法以识别出事件元素为主体,能同时识别出事件元素并将事件元素组合为事件。该方法采用改进的Chinese-RoBERT-wwm-ext[4]构建医学文本的嵌入和特征提取部分,能增强模型的特征提取和传递能力,然后接入融合多特征的CRF[5],考虑了元素实体的长度和位置,有效识别出医疗事件的各个元素的同时,还能综合考虑事件元素的依赖关系,组合为事件。
针对临床医学实验数据稀少、存在大量无标签数据的情况,考虑实验半监督学习方法扩充数据,采用BERT-MCRF作为半监督实验的基实验,对无标签数据进行预测,按照高置信度伪标签数据选择算法挑选预测出的伪标签数据,得到高质量伪标签数据集,将此数据集和原数据进行合并,扩充数据集,重新训练模型提升模型性能。整个实验的流程如图2所示。
图2 结合半监督学习的实验基本流程
Fig.2 Basic flow of the experiment incorporating semi-supervised learning
研究者已经探索了多种方法来识别临床事件表达及其类型,这些方法可以分为3类:基于规则的方法、基于机器学习的方法和基于深度学习的方法。
在早期的研究中,由于缺乏医学领域的公共数据集,临床实体的识别主要采用基于规则的方法,如CAROL et al[6]开发出一个三阶段的、由不同知识源驱动的识别叙述性报告中的临床信息并将这些信息结构化表示的系统,主要用于发现放射学报告中的临床概念。TIAN et al[7]从可诊断的静脉血栓报告中随机抽取了4 000份报告,由临床专家进行编码以确定静脉血栓栓塞症(VTE)的阳性和阴性病例,训练了两个分类器用于识别静脉血栓栓塞症的两种临床表现。
这些基于规则的方法通过设计正则表达式、基于医学词典和医学知识数据库来识别医学实体。基于规则的方法需要更多地关注常规设计,依赖于特定任务的知识。
基于机器学习的实体识别方法可以自动学习规则并适应不同的语境和任务,具有更高的准确性和灵活性。TANG et al[8]提出一个全面的时间信息提取系统,可以识别临床文本中的事件、时间表达式及时间的关系。其中事件提取部分采用两阶段的CRF管道模型,第一阶段识别3种类型医疗事件,第二阶段确定剩下的3种类型的事件,第一阶段的结果作为第二阶段的附加特征,在2012年i2b2挑战中取得不错效果。LEE et al[9]采用HMM-SVM[10]序列标注模型,综合采用了临床领域实体识别任务的多种特征(如词汇特征、句法特征和语篇层次特征等),能同时识别出时间表达式的跨度及其类型,在Semeval-2016 Task 12中获得了最佳F1评分。
基于机器学习的方法通常能有较好的效果,但是严重依赖于已标注的数据及特征工程,而各种特征的构造都比较耗时且代价高昂。
与上述两种类型的方法相比较,基于深度学习的方法已经得到了越来越多的应用。TOURILLE et al[11]构建了用于临床时间关系提取的BiLSTM[12]神经架构,在Semeval-2016 Task 12任务中取得了较好效果。SHI et al[13]提出了基于病历的疾病风险评估模型,利用CNN[14]对病历数据进行特征学习和提取,采用国内某二级甲等医院脑梗死患者、肺部感染患者和冠状动脉粥样硬化性心脏病患者的数据进行实验,平均准确率已超过90%.近年来,随着BERT[15](bidirectional encoder representations from transformers)这一流行的预训练语言表示模型的出现,一些基于BERT的方法在临床任务中取得了较好效果。YANG et al[16]提出的RoBERTa-MIMIC模型将4个基于BERT的临床模型集成到一个开源包中,用于多种临床概念提取。LEE et al[17]在大规模生物医学语料上进行预训练,提出了BioBERT模型,该模型在生物医学命名实体识别、生物医学关系提取等任务中的性能明显优于原始BERT和之前的最佳模型。
虽然基于BERT的方法在临床任务中取得了新的最先进的性能,但它们具有两个共同的缺点:1) 预训练和微调的计算成本巨大,2) 基于BERT的方法使用一些算法将词分解成子词标记,有时结果可能不完全符合传统医学术语形态学(例如,化学疗法“chemotherapy”被分解为“che”、“mot”、“her”、“apy”,而不是具有前缀“chemo”),这降低了识别的准确性。
临床医学事件抽取任务根据不同专科项目所关注的重点不同,抽取的事件形式也大相径庭。药物不良事件(adverse drug event,ADE)是指药物治疗过程中出现的不良临床事件,研究者们常用自然语言处理技术提取药物、药物不良事件及其关系[18-19];临床指南是具有科学性和权威性的指南性文件,指南知识能够为医生进行疾病诊断、治疗、预防等方面提供指导和建议,目前有关临床指南事件的抽取研究也越来越被重视[20];基于电子病历的肿瘤转移事件[21]、临床发现事件等研究也逐渐火热了起来[22]。现阶段针对临床医学事件关系的研究也逐渐成为热点,在医学领域,尤其关注事件发生的时间顺序,对事件及其时序关系[23]、因果关系[24-25]的抽取也越来越被关注。
但目前临床医学数据包含大量专业的、中英文混杂的医疗词汇,且相当一部分数据还包含了口语化的描述,部分描述不符合规范。在标注临床医学事件时需要专业人员手工标注,标注的成本太高,所以目前公开的临床医学事件抽取语料数量较少,能直接用于研究的高质量标注数据更加稀少。
本文提出的融合多特征的医学事件抽取模型BERT-MCRF如图3所示,主要是BERT构建模型的编码和特征提取部分和融合多特征的CRF部分。BERT网络结构复杂、表征信息多样、蕴含大量的通用知识,具有强大的特征提取能力,采用BERT进行特征提取能有效识别复杂的医学实体;融合多特征的CRF是指增加上下文窗口为7个字符的局部特征信息,除考虑当前标记变量与上下文变量之间的依赖关系,还能进一步考虑每个字符前后的依赖关系,进一步提升元素识别的效果,提升事件抽取的效果。如对于“食道下段”原发部位中的“食”字将考虑周围3个字的信息,对于“2.2 cm”这个病灶大小中的“.”字符要考虑前后3个字符共7个字符的信息。
图3 融合多特征的BERT-MCRF模型
Fig.3 BERT-MCRF model incorporating multiple features
本课题选用单个字符作为序列标注模型的单位,采用BIOES的标注方案:将每个字符标注为“B-type”、“I-type”、“E-type”、“S-type”或者“O”.“type”为实体需要标注的类型。“B-”为实体的开头,“I-”为实体的中间,“E-”为实体的结尾,“S-”表明实体为单独的一个字符,“O”是非实体字符。如图3中“食道下端”为原发部位实体,“2.2 cm”为一个病灶大小实体,CRF层输出的序列标签“B-OriPos”代表“食”是原发部位实体的开始字符,“DisLen”代表病灶大小,“TransPos”表示转移部位。
BERT是一种基于双向预训练的深度学习模型,通过预训练可以获取大量的语言知识,其中包括实体识别任务所需要的上下文信息,用BERT进行特征提取能有效识别复杂的医学实体。由于一个医疗事件组成元素分布在电子病历的多个句子内,BERT中的自注意力机制[26]能较大程度地保留长距离特征传递的信息,在较长文本中的特征提取能力较强,所以BERT模型比较适用于在较长医疗文本中识别并抽取出多个事件元素。
RoBERTa-wwm-ext比BERT使用了更多的训练数据,采用了更普遍的预训练方法,这使得它在语言表示能力上更强。Chinese-roberta-wwm-large是基于RoBERTa模型进行的预训练,并针对中文语言进行了优化调整,因此在中文自然语言处理任务中更适合使用。而BERT-Base-Chinese则是直接以BERT模型为基础进行预训练的,Chinese-roberta-wwm-large在中文自然语言处理任务上有着更好的性能表现,尤其是在实体识别、分词、相似度计算等方面。
CRF(conditional random fields)是一种可以利用上下文信息的序列建模方法,它可以考虑整个标注序列中标签的相互依赖关系,通过全局上下文信息来调整标签输出、修正标签序列。在BERT-CRF模型中,将BERT模型的特征表示作为CRF的观测特征,利用CRF模型对这些特征进行处理,得到最终的标记序列。同时,CRF模型中需要定义相应的特征模板,用于提取BERT模型的输出中的有用特征信息,以优化标记预测效果。
CRF层考虑了相邻标签之间的关联关系,并且通过训练可以自动学习这些关联关系,CRF模型会计算每一个位置上各种标签的得分,并将它们组合起来,得到一个标签序列的总得分。模型会选择总得分最高的标签序列作为输出结果。对于句子字符序列x={x1,x2,…,xn},预测标签序列为y={y1,y2,…,yn},其概率可以表示为:
P(y│x)
(1)
式中,y表示标记序列,x表示输入序列,Z(x)为规范化因子,用于保证标记序列的概率之和为1.fk表示定义在每个位置上的特征函数,k是特征函数的索引,通常表示当前位置的标签与前一个位置标签之间的转移关系。在实际计算中,通常使用动态规划算法(如维特比算法Viterbi)来计算最大化概率的标注序列。
CRF特征定义:CRF条件随机场中设置上下文窗口属于局部滑动窗口特征[27]。在CRF模型中,局部滑动窗口特征是指根据当前观测变量和标记变量的位置,选取一些上下文变量作为特征,来捕捉当前标记变量与上下文变量之间的依赖关系。这些上下文变量可以是前后n个标记变量、前后n个观测变量,或者它们的一些组合。如上下文窗口数量为3代表使用包含该字的前后两个字共3个字信息。通过使用这些局部滑动窗口特征,CRF模型可以更好地建模输入序列中的局部依赖性,从而提高了模型的预测能力。后续实验将分别使用滑动窗口为3、5、7作为CRF的局部特征,考虑当前字符的周围字符提升实验效果。
Self-training是最简单的半监督学习[28]方法之一,其主要思想是找到一种方法,用未标记的数据集来扩充已标记的数据集。本文使用Self-training进行实验的基本流程如下:
1) 初始化有标签数据和无标签数据,用已有的有标签数据集训练一个初始模型。
2) 使用初始模型预测无标签数据,对每一条数据的预测结果进行判定,采用本文提出的高置信度伪标签数据选择算法挑选满足预定义条件的预测结果进行标记,该数据即高置信度伪标签数据,将此数据加入原有的有标签数据集中。
3) 遍历完无标签数据集后,用当前的有标签数据集重新训练模型。
Self-training算法的优点是不需要大量的标记数据,可以利用未标记数据进行训练,从而提高模型的性能。缺点是伪标签可能存在误差,因此需要对加入的伪标签进行筛选,否则会对模型的性能造成负面影响。本文提出一种高置信度伪标签数据选择算法对伪标签数据进行筛选。
提出的融合实验的数据集来源于CCKS 2021任务4:面向中文电子病历的医疗实体及事件抽取,包含1 400条中文标记数据和1 300条中文非标记数据。一条标注数据的示例如图4所示。
图4 肿瘤事件抽取示例
Fig.4 An example of tumor event extraction
进行实验之前,对所有数据进行预处理,删除空格、无用的特殊符号,经过处理的数据最短长度是99个字符,最长是1 446个字符,平均长度为478.6个字符。对数据集中的事件元素分别进行统计如表1所示。
表1 CCKS数据类型及元素实体数量
Table 1 CCKS data types and number of element entities
数据类型文本数量原发部位病灶大小转移部位实体总数有标签数据1 4001 3036192 4874 409无标签数据1 300----
从已标注数据的实体数量可以看出,原发部位的数量是病灶大小数量的两倍多,这表明并非所有肿瘤原发部位都能探测出病灶大小。此外,转移部位的数量也几乎是原发部位的两倍,这表明在肿瘤事件中,肿瘤可以从一个起始部位转移到多个位置,这更符合真实情况下的肿瘤发展过程。
CCKS2021医疗事件数据本身长度较长,在进行实验时超长嵌入对实验效果提升并不明显[29],且在数据处理时发现,事件信息绝大部分都分布在医学文本的靠前位置,因此用BERT进行实验时设置数据的嵌入长度为510,超过510个字符的数据直接截断。对处理后的数据按照8∶1∶1随机划分训练集、验证集、测试集,最后数据中的事件元素的数量如表2所示。由于每个事件元素可能出现在一个文本的多个位置,所以标注出来的实体数量会比实际数量多。
表2 有标签数据集划分后的实体数量
Table 2 Number of entities after labeled dataset segmentation
数据集文本数量原发部位病灶大小转移部位实体总数训练集1 1202 4175104 0496 976验证集14031257437806测试集14028854498740
在事件抽取任务中,由于每个文本的一个事件元素可能出现多次,评测指标使用3种事件元素计算准召率,最终使用事件元素的F1值作为评测指标。其中具体的准确率P(Precision)、召回率R(Recall)、F1值的计算如下所示:
(2)
(3)
(4)
式中,P越大表明医疗事件元素的抽取结果越准确;R越大表明事件元素抽取得越全面;F1是P和R的调和平均值,F1值越大,表明抽取的效果又准确又全面。
在本课题中,需要预测的数据为临床医学事件,包含肿瘤原发部位、病灶大小、转移部位3种事件元素。通过对CCKS数据集详细探究,认为3种元素之间存在依赖关系,表3统计了1 400条数据中每条数据3种事件元素相互独立存在的情况,其中√表示该数据中存在此事件元素,×表示不存在此事件元素。如情况1表示一条数据中同时存在3种事件元素,情况2表示一条数据中仅存在原发部位和病灶大小实体,不存在转移部位实体,其余情况以此类推。
表3 CCKS2021数据集事件元素具体分布情况
Table 3 Specific distribution of event elements in CCKS2021 dataset
情况原发部位病灶大小转移部位数据条数情况1√√√516情况2√√×74情况3√×√463情况4×√√0情况5√××156情况6×√×0情况7××√34情况8×××157
通过表3可以发现,情况1、3、5占据了绝大多数情况,占据所有数据的81.07%.情况4和情况6存在的数据条数为0,这两种情况都是不存在原发部位的情况下,存在病灶大小属性的数据条数为0,验证了病灶大小是原发部位的属性之一,病灶大小无法独立存在。其中情况8是最特殊的一种情况,标注中不存在任何实体的情况,综合后续预测的结果,情况8将不作为伪标签选择条件进行实验。
综合表2的整体的事件元素分布情况,将考虑此类分布情况对预测结果的影响,即预测出的数据3种事件元素(原发部位,病灶大小,转移部位)的数量大致满足m∶1∶n的关系,即一条数据中可以存在多个原发部位、多个转移部位,原则上一个病灶大小的情况。
后续实验会采用预测出的数据含有情况1、2、3、5、7此5类情况,以及3种元素数量大致满足m∶1∶n的情况综合作为高置信度数据选择条件。综上,以下就是本课题使用的高置信度数据选择的伪代码:其中U为初始无标签数据集,C为预测数据需要满足的条件,初始训练的模型为M.
算法1高置信度伪标签数据选择算法
---------------------------------------------------
输入:无标签数据集合U,已训练完成的事件抽取模型M,伪标签数据选择条件C
输出:高置信度的伪标签数据集合PL
PL=空
foru属于Udo
pl=M(u)
if pl 满足C
PL=PL+u
End if
End for
---------------------------------------------------
此事件抽取任务的核心是抽取出三种事件元素,将事件元素的抽取建模为序列标注任务,并分别与经典的序列标注模型CRF、BiLSTM-CRF等进行比较。实验环境为ubuntu18.04 LTS,GPU是Tesla T4,共4块。其中BERT-CRF和BERT-Softmax模型采用Bert-base-Chinese模型,BERT-MCRF模型采用了Chinese-robert-wwm-large进行训练,皆采用BERT的默认参数,其中嵌入文本超出510的部分被舍弃,最小批处理尺寸为6,迭代次数为25次。BERT-MCRF模型训练时间最长,完成25次迭代时间约为3.6 h.共采用4组实验与BERT-MCRF进行比较。4组实验的设置如下所示。
CRF:使用基于CRFsuite库的轻量级sklearn-crfsuite工具包,使用的特征“前一个词,当前词,后一个词,前一个词+当前词, 当前词+后一个词”。
BiLSTM-CRF[30]:双向长短期网络和CRF结合的模型,是当前最经典的命名实体识别模型。
BERT-Softmax:直接采用BERT的输出,接softmax函数进行分类得到标签序列。
BERT-CRF:在BERT的基础上结合CRF进行微调,CRF的特征与第一个实验设置一致。
多个模型的整体F1对比如图5所示,具体准确率、召回率、F1值如表4所示。
表4 BERT-MCRF与多个模型对比的结果
Table 4 Results of BERT-MCRF compared with multiple models
模型指标/%原发部位病灶大小转移部位综合CRFP75.5562.7961.9767.42R60.0750.0038.146.42F166.9355.6747.1954.98BiLSTM-CRFP80.1991.3072.4576.49R59.0377.7853.0256.68F168.0184.0161.2365.11BERT-SoftmaxP72.1975.3867.5169.80R71.4890.7480.4077.54F171.8382.3573.3973.47BERT-CRFP75.1885.068.0171.71R68.994.4481.2777.27F171.989.4774.0574.39BERT-MCRFP78.3086.8478.0778.78R77.0994.2983.3181.68F177.6990.4180.6080.21
图5 BERT-MCRF与多个模型的F1值对比
Fig.5 Comparison ofF1values of BERT-MCRF with multiple models
3.4.1不同模型对比分析
根据图5可以观察出BERT-MCRF的效果最好,F1值比基础的CRF提升25.23%,比BiLSTM-CRF提升15.1%,比BERT-Softmax和BERT-CRF分别提升了6.74%和5.82%.基于特征的概率模型CRF仅有54%的F1值,明显低于其余基于深度学习的模型,说明基于深度学习的方法更适合于序列标注任务。BERT-CRF相较于CRF提升较大,仅采用BERT进行实体识别F1值也到了73.47%,说明加入BERT语言模型对实验效果的提升较大,也表明了双向语言模型的优势。BERT-MCRF模型较直接使用BERT-CRF的模型效果更好,因为融合多特征的CRF能够考虑到标记间的依赖关系,从而利用上下文信息,提高标记预测的准确性和连续性,BERT-MCRF结合的模型可以更好地捕获长距离依赖关系,在处理具有复杂结构的医疗文本时具有更好的性能。
另外,除CRF模型以外,其他模型的病灶大小F1值均较高,都在80%以上,也是3个属性实体中表现最好的一个实体,而CRF模型的病灶大小的F1值却相对较低。病灶大小实体一般为“17 mm×15 mm”、“20 mm”、“5 mm×7 mm”等这样结构比较单一的实体。而CRF本身为一个基于特征的机器学习模型,在识别过程中极易将符合此种结构的噪声字符也识别出来,反而这样简单的实体识别效果还没有那么好,其余模型都是基于深度神经网络的模型,在结构相对单一的实体表现较好。
3.4.2融合多特征的CRF对比分析
为了探究融合多特征的CRF对BERT-MCRF模型的具体影响,采用了CRF上下文窗口为3和5两组实验与BERT-MCRF模型进行比较。
1) 特征1:即在基础的BERT-CRF模型上加入上下文窗口为3的CRF,CRF层的特征为“前一个字,当前字,后一个字,前一个字+当前字, 当前字+后一个字”。
2) 特征2:即在基础的BERT-CRF模型上加入上下文窗口为7的CRF,CRF层的特征为“当前字,当前字的前两个字,当前字的后两个字,当前字+前两个字,……”。
3) CRF上下文窗口为7:即BERT-MCRF模型,CRF层的上下文窗口为7,特征为“当前字,当前字的前3个字,当前字的后3个字,当前字+前3个字,……”。
为了保证实验的有效性,设置另外两组实验的其余参数与BERT-MCRF保持一致,两组对比实验和BERT-MCRF的整体结果如图6所示,具体结果如表5所示。
表5 BERT-MCRF与加入两种不同特征的BERT-CRF具体结果对比
Table 5 Comparison of specific results of BERT-MCRF with BERT-CRF that incorporated two different features
模型指标/%原发部位病灶大小转移部位综合BERT-CRF+特征1P76.9085.0169.5173.2R69.8494.4481.9177.94F173.289.4775.2075.5BERT-CRF+特征2P78.2691.2375.9677.91R70.8296.384.1779.66F174.3593.6979.8678.77BERT-MCRFP78.3086.8478.0778.78R77.0994.2983.3181.68F177.6990.4180.6080.21
图6 BERT-MCRF与加入两种不同特征的BERT-CRF结果对比
Fig.6 Comparison of BERT-MCRF with BERT-CRF that incorporated two different features
通过在CRF层加入多特征的实验,我们可以发现,BERT-MCRF模型效果最佳,比加入特征1的BERT-CRF模型F1值提升了3.27%,加入特征2后F1值提升4.71%.在3个模型中,召回率都是最高的,准确率最低,这意味着3个模型预测出的结果中含有大量的非标注实体信息,标注的实体大都被识别出来了。在临床医学事件抽取过程中,较高的召回率表明事件元素抽取得越全面,对实际医疗过程提示作用更大。
从表5中可以发现,BERT-MCRF比加入特征1的BERT-CRF模型的原发部位和转移部位的F1值提升较大,分别提升4.49%和5.4%,而病灶大小仅提升0.94%.经过统计发现,医疗事件元素原发部位、病灶大小、转移部位3种实体的平均长度为3.06、9.65、3.53,而上下文窗口为7会考虑事件元素中某个字前3个字和后3个字的内容,对于实体中任意一个字,考虑的信息都包含了实体整个长度的信息,更接近于部位实体的长度,所以原发部位和转移部位的F1值效果较好,说明考虑了实体长度的特征能提升实验效果。但BERT-MCRF中病灶大小的结果相较于加入特征2的BERT-CRF模型效果较低,或许是因为考虑了较多的特征反而降低了模型性能。表6展示了一条原始数据采用BERT-CRF加入特征1、特征2以及BERT-MCRF后预测出的不同结果,其中BERT-MCRF的结果与标注答案完全符合。
表6 一条数据经三个模型预测出的结果
Table 6 Results predicted by three models for one piece of data
句子模型预测字符扫描显示胸廓对称,左肺上叶纵隔旁可见团块影,大小约4.83 cm×3.35 cmBERT-CRF+特征1……左(B-OriPos)肺(I-OriPos)上(I-OriPos)叶(E-OriPos)纵(O)隔(O)旁(O)可(O)见(O)……BERT-CRF+特征2……左(B-OriPos)肺(I-OriPos)上(I-OriPos)叶(I-OriPos)纵(I-OriP-os)隔(E-OriPos)旁(O)可(O)见(O)……BERT-MCRF……左(B-OriPos)肺(I-OriPos)上(I-OriPos)叶(I-OriPos)纵(I-OriP-os)隔(I-OriPos)旁(E-OriPos)可(O)见(O)……
3.4.3融合多特征的CRF对比分析
为了探究本文提出的高置信度伪标签数据选择算法的性能,采用两种不同的其他算法与其对比分析。设置BERT-MCRF模型作为半监督实验的初始实验,预测CCKS数据集中的1 300条无标签数据。综合表3选择高置信度数据的条件,设定了以下几种选择数据进行标注的情况进行一轮半监督实验:
1) 条件C1:选择表3中含有情况1、2、3的数据,挑选出的伪标签数据230条。
2) 条件C2:选择表3中含有情况1、2、3、5、7作为选择条件,挑选出的伪标签数据618条。
3) 条件C3:按照上述高置信度伪标签数据选择算法筛选出的数据,挑选出伪标签数据300条。
通过上面3种情况筛选,得到3个伪标签数据集,将3个伪标签数据集加入原始数据,重新训练,实验参数与第4节实验一致,得到3组实验结果。初始模型和加入不同条件选择出的模型得到的整体结果如图7所示,具体指标如表7所示。
表7 三种不同伪标签数据选择策略进行一轮半监督实验后的效果
Table 7 Results after one round of semi-supervised experiments with three different pseudo-labeled data selection strategies
模型指标/%原发部位病灶大小转移部位综合BERT-MCRFP78.3086.8478.0778.78R77.0994.2983.3181.68F177.6990.4180.6080.21BERT-MCRF+C1P77.7083.0174.6476.61R81.5989.4475.0678.85F179.6086.1074.8577.71BERT-MCRF+C2P81.0889.8674.9078.65R82.3286.3675.6579.32F181.7088.0875.2878.99BERT-MCRF+C3(ours)P82.0089.2977.2479.92R82.5282.2483.9983.26F182.2685.6280.4781.56
图7 BERT-MCRF模型和加入三种策略选择数据后的结果对比
Fig.7 Comparison of results between BERT-MCRF model and after joining three strategies to select data
从表7中发现,加入高置信度数据选择策略后的模型原发部位的F1值提升较大,提升了4.57%,而病灶大小和转移部位都有不同程度的降低。猜测是加入半监督实验后,得到的原发部位实体增多,而且原发部位一般出现在句子靠前位置,预测效果比较准确,所以提升了原发部位的实体识别效果;而观察到预测出的病灶大小和转移部位部分结果存在歧义,加入半监督实验不可避免地出现了语义漂移的情况,稍微降低了这两类实体的准确性。但总的来说,加入筛选后的高置信度的数据能降低语义漂移的情况,提升整体的实验效果。
临床事件抽取3种事件元素需要关注上下文信息,考虑元素之间的依赖关系,抽取模型需要极强的特征提取和传递能力。本文提出的BERT-MCRF模型能利用句子位置信息、字符信息还有段落信息,特征提取能力较强,所以在事件抽取中达到了较好效果。此外,融合多特征的CRF考虑了事件中3个属性的特点,进一步加强了模型的特征传递能力。加入当前字和周围3个字的组合特征比较贴近属性实体的长度,整体F1值达到了80.21%,较基础的BERT-CRF模型提升4.71%,提升效果明显。
为了扩充临床事件抽取数据集,需要对原始无标签数据进行预测,并挑选其中置信度较高的伪标签数据进行实验。本文提出一种高置信度伪标签数据选择算法,对CCKS2021数据集中1 300条无标签数据进行挑选,挑选出300条高置信度的数据进行半监督实验,在BERT-MCRF模型的基础上,F1值提升了1.35%,证明半监督方法中加入自定的策略能在一定程度上修正语义漂移的问题,提升实验效果。按照高置信度伪标签数据选择策略挑选出的数据与原始数据进行合并,也能有效解决医疗领域标注数据匮乏的问题。
[1] 项威,王邦.中文事件抽取研究综述[J].计算机技术与发展,2020,30(2):1-6.
XIANG W,WANG B.Survey on Chinese event extraction research[J].Computer Technology and Development,2020,30(2):1-6.
[2] GUAN S P,CHENG X Q,BAI L,et al.What is event knowledge graph:a survey[J].IEEE Transactions on Knowledge and Data Engineering,2023,35(7):7569-7589.
[3] MA C,HUANG W K.Named entity recognition and event extraction in Chinese electronic medical records[C]∥QIN B,WANG H,LIU M,et al.CCKS 2021-Evaluation Track,2022:133-138.
[4] CUI Y M,CHE W X,LIU T,et al.Revisiting pre-trained models for Chinese natural language processing[EB/OL].[2020-11-02].https:∥arxiv.org/abs/2004.13922.
[5] SONG S,ZHANG N,HUANG H.Named entity recognition based on conditional random fields[J].Cluster Computing,2019,22(3):5195-5206.
[6] CAROL F,ALDERSON P O,AUSTIN J H,et al.A general natural-language text processor for clinical radiology[J].Journal of the American Medical Informatics Association,1994,1(2):161-174.
[7] TIAN Z,SUN S,EGUALE T,et al.Automated extraction of VTE events from narrative radiology reports in electronic health records:a validation study[J].Medical Care,2017,55(10):e73.
[8] TANG B,WU Y,JIANG M,et al.A hybrid system for temporal information extraction from clinical text[J].Journal of the American Medical Informatics Association,2013,20(5):828-835.
[9] LEE H J,XU H,WANG J,et al.UTHealth at SemEval-2016 Task 12:an end-to-end system for temporal information extraction from clinical notes[C]∥Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016).San Diego:Association for Computational Linguistics,2016:1292-1297.
[10] JU Z,WANG J,ZHU F.Named entity recognition from biomedical text using SVM[C]∥5th International Conference on Bioinformatics and Biomedical Engineering.Wuhan:IEEE,2011:1-4.
[11] TOURILLE J,FERRET O,TANNIER X,et al.LIMSI-COT at SemEval-2017 Task 12:neural architecture for temporal information extraction from clinical narratives[C]∥Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017).Vancouver,Canada:Association for Computational Linguistics,2017:597-602.
[12] JIN Y,XIE J,GUO W,et al.LSTM-CRF neural network with gated self attention for Chinese NER[J].IEEE Access,2019,7:136694-136703.
[13] SHI X,HU Y,ZHANG Y,et al.Multiple disease risk assessment with uniform model based on medical clinical notes[J].IEEE Access,2016,4:7074-7083.
[14] GUI T,MA R T,ZHANG Q,et al.CNN-based Chinese NER with lexicon rethinking[C]∥Proceedings of the Twenty-eighth International Joint Conference on Artificial Intelligence,2019:4982-4988.
[15] DEVLIN J,CHANG M W,LEE K,et al.Bert:pre-training of deep bidirectional transformers for language understanding[EB/OL].[2019-05-24].https:∥arxiv.org/abs/1810.04805.
[16] YANG X,BIAN J,HOGAN W R,et al.Clinical concept extraction using transformers[J].Journal of the American Medical Informatics Association,2020,27(12):1935-1942.
[17] LEE J,YOON W,KIM S,et al.BioBERT:a pre-trained biomedical language representation model for biomedical text mining[J].Bioinformatics,2020,36(4):1234-1240.
[18] WEI Q,JI Z,LI Z,et al.A study of deep learning approaches for medication and adverse drug event extraction from clinical text[J].Journal of the American Medical Informatics Association,2020,27(1):13-21.
[19] FAN B,FAN W,SMITH C,et al.Adverse drug event detection and extraction from open data:A deep learning approach[J].Information Processing &Management,2020,57(1):102131.
[20] 余辉,徐畅,刘雅茹,等.基于BiLSTM-CRF的中文临床指南治疗事件抽取[J].中华医学图书情报杂志,2020,29(2):9-14.
YU H,XU C,LIU Y R,et al.BiLSTM and CRF-based extraction of therapeutic events from Chinese clinical guidelines[J].Chinese Journal of Medical Library and Information Science,2020,29(2):9-14.
[21] LI X,WEN Q,LIN H,et al.Overview of CCKS 2020 Task 3:named entity recognition and event extraction in Chinese electronic medical records[J].Data Intelligence,2021,3(3):376-388.
[22] FENG W,HUANG R C,YU Y,et al.End-to-end clinical event extraction from Chinese electronic health record[EB/OL].[2022-08-19].https:∥arxiv.org/abs/2208.09354.
[23] JINDAL P,ROTH D.Extraction of events and temporal expressions from clinical narratives[J].Journal of Biomedical Informatics,2013,46:S13-S19.
[24] KABIR M A,ALMULHIM A,LUO X,et al.Informative causality extraction from medical literature via dependency-tree-based patterns[J].Journal of Healthcare Informatics Research,2022,6(3):295-316.
[25] KHETAN V,RIZVI M I H,HUBER J,et al.MIMI cause:representation and automatic extraction of causal relation types from clinical notes[EB/OL].[2022-03-14].https:∥arxiv.org/abs/2110.07090.
[26] MNIH V,HEESS N,GRAVES A,et al.Recurrent models of visual attention[C]∥Advances in Neural Information Processing Systems.28th Conference on Neural Information Processing Systems (NIPS).Montreal,CANADA,2014.
[27] SHREE M R,SHAMBHAVI B R.POS tagger model for Kannada text with CRF++and deep learning approaches[J].Journal of Discrete Mathematical Sciences and Cryptography,2020,23(2):485-493.
[28] VAN ENGELEN J E,HOOS H H.A survey on semi-supervised learning[J].Machine Learning,2020,109(2):373-440.
[29] DU X,CARDIE C.Document-level event role filler extraction using multi-granularity contextualized encoding[C]∥Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.2020:8010-8020.
[30] XU K,ZHOU Z,HAO T,et al.A bidirectional LSTM and conditional random fields approach to medical named entity recognition[C]∥HASSANIEN A E,SHAALAN K,GABER T,et al.Proceedings of the International Conference on Advanced Intelligent Systems and Informatics 2017.Cham:Springer International Publishing,2018:355-365.