基于机器学习的电子病历词库训练方法
基本信息
申请号 | CN201910443777.8 | 申请日 | - |
公开(公告)号 | CN110189830A | 公开(公告)日 | 2021-06-08 |
申请公布号 | CN110189830A | 申请公布日 | 2021-06-08 |
分类号 | G16H50/70 | 分类 | 物理 |
发明人 | 黄泽明 | 申请(专利权)人 | 杭州火树科技有限公司 |
代理机构 | 杭州融方专利代理事务所(普通合伙) | 代理人 | 沈相权 |
地址 | 310013 浙江省杭州市滨江区长河街道科技馆街279号金龙大厦1205室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了基于机器学习的电子病历词库训练方法。属于在电子病历中挖掘医疗用语技术领域,该方法可靠性高,能从电子病历词库中训练出医疗用语通用词库。第一步,统计电子病历语料库中出现单字或双字的频率,并统计与该单字或该双字前后连接字的相关信息f;第二步,对分词词库中的单字和双字使用互信熵,选择大于阈值K1=10.8的词加入词库,作为初始词库;第三步,有了初始词库,使用正向最大匹配,对电子病历语料库进行切分,对切分出来的字串按频率排序输出并记下字串数量seg_num;第四步,对切分产生的字串按频率排序;第五步,更新词库后,重复第三步和第四步进行迭代。 |
