医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法专利查询专利号|摘要-满商公司网

医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法

基本信息

摘要

摘要	本发明涉及医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法，包括：基于原始医学诊断数据得到待映射文本，进而生成训练集，验证集，测试集、基于标准术语集和待映射文本集合生成正样例集合、对于正样例集合中的任意正样例，基于相似度计算函数生成候选负样例集合、获取正样例集合的一个子集，对于其中的每个正样例，从候选负样例集合中抽取部分或负样例生成训练集，将正样例集合的子集与训练集合并后形成一个训练批次、将训练批次带入神经网络模型中进行训练。本发明提取负样例更具代表性，分别提起正负样例对修改的模型进行模拟训练，实现对模型进行泛化改进，模型的性能得到提升，提升了对未知细粒度术语的识别泛化性。