半监督自学习驱动的医学文本病症辨识方法

基本信息

申请号 CN202011641493.9 申请日 -
公开(公告)号 CN112735597A 公开(公告)日 2021-04-30
申请公布号 CN112735597A 申请公布日 2021-04-30
分类号 G16H50/70;G16H10/60;G06N3/12;G06K9/62;G06F40/30;G06F40/253;G06F40/211 分类 物理
发明人 刘秀萍;王辉 申请(专利权)人 荆门汇易佳信息科技有限公司
代理机构 - 代理人 -
地址 448000 湖北省荆门市高新区龙井大道238号(九派通创业园)
法律状态 -

摘要

摘要 本发明提供的半监督自学习驱动的医学文本病症辨识方法,主要实现对医学文本的特征分类,特征包括患病对象类型、病情进展、是否发生疾病、病症严重程度、病症的条件性和病症的不确定性等,通过对这些特征的辨识和分类,使这些非结构化的医学文本结构化并在进一步的信息挖掘中可直接处理使用;本发明立足于医学文本标注文本较少,未标注文本多的特点,从特征抽取、优化分类模型方面展开;实验结果表明,本发明较好的弥补了标注文本较少的缺陷和不足,由于自学习方法易引入相似数据和错误分类数据,相比之下半监督SVM在利用未标注数据方面效果更好,证明了本发明方法的可行性和高效性。