基于GPT-2模型的中文电子病历实体识别方法

基本信息

申请号 CN201910946630.0 申请日 -
公开(公告)号 CN110674641A 公开(公告)日 2020-01-10
申请公布号 CN110674641A 申请公布日 2020-01-10
分类号 G06F40/295(2020.01); G06F40/30(2020.01) 分类 计算;推算;计数;
发明人 朱国胜; 吴善超; 刘飞鸿; 祁小云; 吴梦宇 申请(专利权)人 明理医疗科技(武汉)有限公司
代理机构 武汉帅丞知识产权代理有限公司 代理人 武汉鸿名科技有限公司; 湖北大学; 明理医疗科技(武汉)有限公司; 赛尔网络有限公司
地址 430000 湖北省武汉市东湖新技术开发区高新大道666号光谷生物城生物创新园B1栋568-1号
法律状态 -

摘要

摘要 本发明涉及一种基于GPT‑2模型的中文电子病历实体识别方法,利用GPT‑2预训练模型提取电子病例的特征向量,再从CRF模型作为出口得到识别概率,最终得到中文电子病例的命名实体,所述方法包括如下步骤:1)将中文电子病历的数据分为训练集和测试集两个部分,并对两个部分的数据进行统一标注,标注后的数据包含原始中文电子病历和实体标注;2)以GPT‑2预训练模型为基础,引入CRF模型,建立基于GPT2‑CRF的中文电子病历实体识别模型,使用训练集数据训练,得到训练后的中文电子病历实体识别模型;3)将测试集数据输入中文电子病历实体识别模型中,通过评估分数得到实体识别的最优标注序列。该方法不受文本形式限制,容易实现,并且开发和运行成本低。