面向多数据源的疾病类实体识别方法及装置
基本信息
申请号 | CN201710101821.8 | 申请日 | - |
公开(公告)号 | CN106934220A | 公开(公告)日 | 2017-07-07 |
申请公布号 | CN106934220A | 申请公布日 | 2017-07-07 |
分类号 | G06F19/00;G06F17/27;G06F17/30 | 分类 | 计算;推算;计数; |
发明人 | 李雪莉;黄玉丽;关毅 | 申请(专利权)人 | 黑龙江特士信息技术有限公司 |
代理机构 | 北京三友知识产权代理有限公司 | 代理人 | 黑龙江特士信息技术有限公司;哈尔滨工业大学;易保互联医疗信息科技(北京)有限公司 |
地址 | 150000 黑龙江省哈尔滨市经开区哈平路集中区松花路9号中国云谷软件园1号楼214室 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种面向多数据源的疾病类实体识别方法及装置,涉及医疗实体识别技术领域。方法包括:获取原始数据中的待处理语句;将待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;根据预先设置的疾病类术语切分策略,对待处理语句进行术语切分,确定第二组候选实体;对各候选实体进行筛选,分别形成第一组疾病类候选实体和第二组疾病类候选实体;根据预先设置的判断策略从第一组疾病类候选实体和第二组疾病类候选实体中确定疾病类实体结果。 |
