基于GPT-2模型的中文电子病历实体识别方法
基本信息
申请号 | CN201910946630.0 | 申请日 | - |
公开(公告)号 | CN110674641A | 公开(公告)日 | 2020-01-10 |
申请公布号 | CN110674641A | 申请公布日 | 2020-01-10 |
分类号 | G06F40/295(2020.01); G06F40/30(2020.01) | 分类 | 计算;推算;计数; |
发明人 | 朱国胜; 吴善超; 刘飞鸿; 祁小云; 吴梦宇 | 申请(专利权)人 | 明理医疗科技(武汉)有限公司 |
代理机构 | 武汉帅丞知识产权代理有限公司 | 代理人 | 武汉鸿名科技有限公司; 湖北大学; 明理医疗科技(武汉)有限公司; 赛尔网络有限公司 |
地址 | 430000 湖北省武汉市东湖新技术开发区高新大道666号光谷生物城生物创新园B1栋568-1号 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种基于GPT‑2模型的中文电子病历实体识别方法,利用GPT‑2预训练模型提取电子病例的特征向量,再从CRF模型作为出口得到识别概率,最终得到中文电子病例的命名实体,所述方法包括如下步骤:1)将中文电子病历的数据分为训练集和测试集两个部分,并对两个部分的数据进行统一标注,标注后的数据包含原始中文电子病历和实体标注;2)以GPT‑2预训练模型为基础,引入CRF模型,建立基于GPT2‑CRF的中文电子病历实体识别模型,使用训练集数据训练,得到训练后的中文电子病历实体识别模型;3)将测试集数据输入中文电子病历实体识别模型中,通过评估分数得到实体识别的最优标注序列。该方法不受文本形式限制,容易实现,并且开发和运行成本低。 |
