您好,欢迎访问太原理工大学学报| 收藏本站
主管单位:山西省教育厅
主办单位:太原理工大学
出版单位:《太原理工大
    学学报》编辑部
主  编: 孙宏斌
执行主编: 冯国瑞
常务副主编: 刘旭光
副主编: 郝晓刚 董宪姝
董晓强 强 彦
熊晓燕 贾丽红
编辑部主任:贾丽红
国内发行:太原市邮政局
     报刊发行局
国外发行:中国国际图书
     贸易总公司
邮发代号:22-27
CN:14-1220/N
ISSN:1007-9432
您当前的位置: 首页 > 论文 > 2024, 55(01) > 第十一届中国计算机学会大数据学术会议论文选登
引用本文:
  • HTMLPDF点击下载大小:2.01MB浏览:下载:
  • 基于高置信度伪标签数据选择算法的临床事件抽取方法

    基金项目:
    四川省科技厅重点研发项目(2021YFG0031);四川省省级科研院所科技成果转化项目(22YSZH0021)
    分类号:
    TP391.1
    DOI:
    10.16355/j.tyut.1007-9432.2023BD011
    期刊号:
    2024, 55(01)
    收稿日期:
    2023-08-29
    修回日期:
    2023-09-20
    摘要:
    【目的】 事件抽取是构建高质量事件知识图谱的前提。临床事件抽取过程中事件元素存在依赖关系,现有方法无法准确识别事件元素并组合为事件,且现有临床事件标记数据较少,给事件抽取任务带来了极大的挑战。【方法】 将临床事件抽取建模为实体识别模型,提出一种融合多特征的中文医学事件抽取方法:BERT-MCRF.该方法使用BERT构建模型的嵌入和特征提取部分,在CRF层加入多个字的滑动窗口特征,然后将BERT-MCRF作为半监督实验的基实验,提出一种高置信度伪标签数据选择算法作为筛选数据的条件,得到较高质量的300条数据与原始数据合并,最终构建了1 700条语料,并重新训练模型。【结果】 BERT-MCRF模型在3种属性实体上的整体F1值达到80.21%,比经典的BiLSTM-CRF模型提升15.11%;通过半监督思路重新训练的模型最终F1值达到81.56%,较原始BERT-MCRF提升了1.35%.
    关键字:
    临床医学事件抽取;实体识别;多特征;半监督学习;高置信度伪标签选择算法

    网站版权:《太原理工大学学报》编辑部;您是本站第 访问者

    地址:太原市迎泽西大街79号,邮编:030024;电话:0351-6111188,6014376 ,6014556
    Baidu
    map