基于机器学习的电子病历词库训练方法

基本信息

申请号 CN201910443777.8 申请日 -
公开(公告)号 CN110189830A 公开(公告)日 2021-06-08
申请公布号 CN110189830A 申请公布日 2021-06-08
分类号 G16H50/70 分类 物理
发明人 黄泽明 申请(专利权)人 杭州火树科技有限公司
代理机构 杭州融方专利代理事务所(普通合伙) 代理人 沈相权
地址 310013 浙江省杭州市滨江区长河街道科技馆街279号金龙大厦1205室
法律状态 -

摘要

摘要 本发明公开了基于机器学习的电子病历词库训练方法。属于在电子病历中挖掘医疗用语技术领域,该方法可靠性高,能从电子病历词库中训练出医疗用语通用词库。第一步,统计电子病历语料库中出现单字或双字的频率,并统计与该单字或该双字前后连接字的相关信息f;第二步,对分词词库中的单字和双字使用互信熵,选择大于阈值K1=10.8的词加入词库,作为初始词库;第三步,有了初始词库,使用正向最大匹配,对电子病历语料库进行切分,对切分出来的字串按频率排序输出并记下字串数量seg_num;第四步,对切分产生的字串按频率排序;第五步,更新词库后,重复第三步和第四步进行迭代。