一种跨病种的小样本临床医疗文本后结构化处理方法

基本信息

申请号 CN202011567629.6 申请日 -
公开(公告)号 CN112685561A 公开(公告)日 2021-04-20
申请公布号 CN112685561A 申请公布日 2021-04-20
分类号 G06F16/35(2019.01)I;G06N3/04(2006.01)I 分类 计算;推算;计数;
发明人 刘翔 申请(专利权)人 广州知汇云科技有限公司
代理机构 汕头兴邦华腾专利代理事务所(特殊普通合伙) 代理人 张树峰;梁凤德
地址 510000广东省广州市南沙区进港大道8号南沙城大厦11楼06号(仅限办公)
法律状态 -

摘要

摘要 本发明公开了一种跨病种的小样本临床医疗文本后结构化处理方法,包括:获取A病种的小样本文本信息和B病种的大样本文本信息,并采用文本困惑度的文本聚类获取待标注信息,对待标注信息进行标注,得到标注后的文本信息;在pytorch神经网络框架下,利用元学习和LSTM模型训练是否型问题的信息抽取模型,得到元模型;利用标注后的文本信息对元模型进行训练,得到小样本病历的文本后结构化模型;利用文本后结构化模型识别的A病种的文本信息。通过上述方案,本发明具有逻辑简单、标注量少、覆盖全面、处理效率高等优点,在中文自然语言处理技术以及机器学习领域具有很高的实用价值和推广价值。