领域术语抽取方法、装置、终端设备及存储介质

基本信息

申请号 CN201810546695.1 申请日 -
公开(公告)号 CN108804617B 公开(公告)日 2021-08-10
申请公布号 CN108804617B 申请公布日 2021-08-10
分类号 G06F16/35(2019.01)I;G06N3/04(2006.01)I 分类 计算;推算;计数;
发明人 杜翠凤 申请(专利权)人 广州杰赛通信规划设计院有限公司
代理机构 广州三环专利商标代理有限公司 代理人 梁顺宜;郝传鑫
地址 510310广东省广州市海珠区新港中路381号31分箱
法律状态 -

摘要

摘要 本发明公开了一种领域文本抽取方法,包括:获取所述训练集的每个类别的至少一个分类词,生成相应于每个所述类别的第一特征词集合;对所述第一特征词集合进行合并、扩充,生成目标特征词集合;根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与每个所述目标特征词之间的内部结合紧密度,以及计算每个所述目标特征词相对于所述目标特征词集合中的每个所述目标特征词的左熵和右熵;根据所述内部结合紧密度、所述左熵以及所述右熵,得到每个所述类别的术语。本发明还公开了一种领域术语抽取的装置、终端设备及存储介质,可以解决特征词集合不能准确地表达特定学科领域的问题,提高了文本分类的准确性。