医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法

基本信息

申请号 CN202010159004.X 申请日 -
公开(公告)号 CN111460091A 公开(公告)日 2020-07-28
申请公布号 CN111460091A 申请公布日 2020-07-28
分类号 G06F16/33(2019.01)I 分类 -
发明人 刘霄;赵鑫 申请(专利权)人 杭州麦歌算法科技有限公司
代理机构 杭州君度专利代理事务所(特殊普通合伙) 代理人 杭州麦歌算法科技有限公司
地址 310051浙江省杭州市滨江区六合路368号一幢(北)三层D3102室
法律状态 -

摘要

摘要 本发明涉及医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法,包括:基于原始医学诊断数据得到待映射文本,进而生成训练集,验证集,测试集、基于标准术语集和待映射文本集合生成正样例集合、对于正样例集合中的任意正样例,基于相似度计算函数生成候选负样例集合、获取正样例集合的一个子集,对于其中的每个正样例,从候选负样例集合中抽取部分或负样例生成训练集,将正样例集合的子集与训练集合并后形成一个训练批次、将训练批次带入神经网络模型中进行训练。本发明提取负样例更具代表性,分别提起正负样例对修改的模型进行模拟训练,实现对模型进行泛化改进,模型的性能得到提升,提升了对未知细粒度术语的识别泛化性。