一种面向医疗文本的预训练方法
基本信息
申请号 | CN202110690028.2 | 申请日 | - |
公开(公告)号 | CN113674866A | 公开(公告)日 | 2021-11-19 |
申请公布号 | CN113674866A | 申请公布日 | 2021-11-19 |
分类号 | G16H50/70(2018.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06K9/62(2006.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分类 | 物理 |
发明人 | 朱强;王卫东;杨毅;徐高军 | 申请(专利权)人 | 江苏天瑞精准医疗科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 214091江苏省无锡市滨湖区马山街道梅梁路136号4楼 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种面向医疗文本的预训练方法,具体步骤有:获取疾病、检查检验、症状、药品、身体部位和手术等医疗字典;采集百科、电子病历中的医疗文本内容;加载医疗字典,使用jieba对医疗文本进行分词处理,作为训练语料;从汉典中获取汉字的图片,不存在的字符,构造相对应的图片;使用VGG‑16卷积网络提取字符特征;使用PCA降低提取的字符特征的维度,作为字向量;叠加字向量和字的位置向量作为新的字向量;加载开源的中文词向量语料库作为初始的词向量;使用ELMo模型对医疗文本内容进行训练,获得最终的ELMo预训练模型;使用ELMo预训练模型生成句中特定词的ELMo向量。本发明的预训练方法,能够解决通用语料不适应医学自然语言处理任务。 |
