基于单词的类内分布与类间分布的电子病历特征选择方法

基本信息

申请号 CN201810208599.6 申请日 -
公开(公告)号 CN108346474B 公开(公告)日 2021-09-28
申请公布号 CN108346474B 申请公布日 2021-09-28
分类号 G16H50/70(2018.01)I;G06F40/289(2020.01)I;G06F40/30(2020.01)I 分类 物理
发明人 彭访;方胜群;蔡志平;吴喜军;孙文成 申请(专利权)人 湖南省蓝蜻蜓网络科技有限公司
代理机构 湖南省国防科技工业局专利中心 代理人 冯青
地址 410073 湖南省长沙市开福区德雅路109号
法律状态 -

摘要

摘要 本发明涉及基于单词的类内分布与类间分布的电子病历特征选择方法。本发明首先构建了疾病、药品词典,其次总结了中文病历中症状词分布的三大特点,然后对收集到的病人病历进行预处理,将分词结果保存到数据库中。本发明根据关键症状词在疾病内的分布情况及疾病间的分布情况计算单词对于不同疾病的代表度,且在考虑疾病间分布情况时,分析了疾病与疾病间的关联性对于特征选择的影响,在特征选择时保证关联性高的疾病间的特征尽量相似,关联性低的疾病间的特征尽量排斥。