医学文本的分词方法、装置、计算机设备和存储介质

基本信息

申请号 CN202210121004.X 申请日 -
公开(公告)号 CN114154502B 公开(公告)日 2022-05-24
申请公布号 CN114154502B 申请公布日 2022-05-24
分类号 G06F40/289(2020.01)I;G06F40/30(2020.01)I;G06F16/35(2019.01)I;G06F16/36(2019.01)I 分类 计算;推算;计数;
发明人 张凯 申请(专利权)人 浙江太美医疗科技股份有限公司
代理机构 北京布瑞知识产权代理有限公司 代理人 -
地址 314001浙江省嘉兴市昌盛南路36号智慧产业创新园9号楼3层
法律状态 -

摘要

摘要 本说明书实施方式提供了一种医学文本的分词方法、装置、计算机设备和存储介质。包括:获取所述医学文本中的医学基础词和医学复合词;其中,所述医学基础词不能被切分出医学子词;按照构成所述医学复合词的文字顺序,将所述医学复合词切分成多个非复合的医学子词;其中,所述医学复合词中的一个文字被分入一个医学子词;其中,所述非复合的医学子词不能被进一步切分出医学子词;标注所述医学基础词、所述医学复合词和所述医学子词的词性,得到所述医学文本的医学词分词结果。通过对医学文本采用多维词典匹配、模型预测和词语联想的方法,实现一款能提高医学文本分词准确性的医学分词工具。