一种面向医疗文本的预训练方法

基本信息

申请号 CN202110690028.2 申请日 -
公开(公告)号 CN113674866A 公开(公告)日 2021-11-19
申请公布号 CN113674866A 申请公布日 2021-11-19
分类号 G16H50/70(2018.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06K9/62(2006.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 物理
发明人 朱强;王卫东;杨毅;徐高军 申请(专利权)人 江苏天瑞精准医疗科技有限公司
代理机构 - 代理人 -
地址 214091江苏省无锡市滨湖区马山街道梅梁路136号4楼
法律状态 -

摘要

摘要 本发明公开了一种面向医疗文本的预训练方法,具体步骤有:获取疾病、检查检验、症状、药品、身体部位和手术等医疗字典;采集百科、电子病历中的医疗文本内容;加载医疗字典,使用jieba对医疗文本进行分词处理,作为训练语料;从汉典中获取汉字的图片,不存在的字符,构造相对应的图片;使用VGG‑16卷积网络提取字符特征;使用PCA降低提取的字符特征的维度,作为字向量;叠加字向量和字的位置向量作为新的字向量;加载开源的中文词向量语料库作为初始的词向量;使用ELMo模型对医疗文本内容进行训练,获得最终的ELMo预训练模型;使用ELMo预训练模型生成句中特定词的ELMo向量。本发明的预训练方法,能够解决通用语料不适应医学自然语言处理任务。