一种医疗数据标准化的方法及装置

基本信息

申请号 CN201911368319.9 申请日 -
公开(公告)号 CN111292814A 公开(公告)日 2020-06-16
申请公布号 CN111292814A 申请公布日 2020-06-16
分类号 G16H10/00(2018.01)I 分类 -
发明人 孟继虹;孙龙超;唐劭;张斌;孙宇浩 申请(专利权)人 北京亚信数据有限公司
代理机构 北京鼎承知识产权代理有限公司 代理人 北京亚信数据有限公司
地址 100193北京市海淀区西北旺东路10号院东区亚信全球总部研发中心大楼2层B座B3区
法律状态 -

摘要

摘要 本公开提供了一种医疗数据的标准化方法,包括以下步骤:步骤一:采用NLP方法,对医疗数据进行分词,初步构建分词库;步骤二:在已构建所述分词库的模型基础上,输入医疗过程中产生的业务数据的名称,生成词向量并映射到标准表中,生成映射结果;计算所述业务数据与所述映射结果的相似度;步骤三:进行核查;对于不合理的映射结果,进行分词标注,追加分词到所述分词库中;步骤四:优化迭代,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。本公开提供了临床医学术语构建分词和无用词表的方法;解决通常不具备大量医疗病历资源仍能进行医疗数据标准化的难题。