您当前的位置: 首页 > 论文 > 2024, 55(01) > 第十一届中国计算机学会大数据学术会议论文选登
基金项目:
四川省科技厅重点研发项目(2021YFG0031);四川省省级科研院所科技成果转化项目(22YSZH0021)
分类号:
TP391.1
DOI:
10.16355/j.tyut.1007-9432.2023BD011
期刊号:
2024, 55(01)
收稿日期:
2023-08-29
修回日期:
2023-09-20
摘要:
【目的】 事件抽取是构建高质量事件知识图谱的前提。临床事件抽取过程中事件元素存在依赖关系,现有方法无法准确识别事件元素并组合为事件,且现有临床事件标记数据较少,给事件抽取任务带来了极大的挑战。【方法】 将临床事件抽取建模为实体识别模型,提出一种融合多特征的中文医学事件抽取方法:BERT-MCRF.该方法使用BERT构建模型的嵌入和特征提取部分,在CRF层加入多个字的滑动窗口特征,然后将BERT-MCRF作为半监督实验的基实验,提出一种高置信度伪标签数据选择算法作为筛选数据的条件,得到较高质量的300条数据与原始数据合并,最终构建了1 700条语料,并重新训练模型。【结果】 BERT-MCRF模型在3种属性实体上的整体F1值达到80.21%,比经典的BiLSTM-CRF模型提升15.11%;通过半监督思路重新训练的模型最终F1值达到81.56%,较原始BERT-MCRF提升了1.35%.
关键字:
临床医学事件抽取;实体识别;多特征;半监督学习;高置信度伪标签选择算法