基于非监督的文本去噪方法、系统、电子设备及存储介质

基本信息

申请号 CN202011398468.2 申请日 -
公开(公告)号 CN112560457A 公开(公告)日 2021-03-26
申请公布号 CN112560457A 申请公布日 2021-03-26
分类号 G06F16/35(2019.01)I;G06F40/258(2020.01)I;G06F16/33(2019.01)I;G06F40/289(2020.01)I 分类 计算;推算;计数;
发明人 吴明平 申请(专利权)人 上海风秩科技有限公司
代理机构 青岛清泰联信知识产权代理有限公司 代理人 李红岩
地址 200232上海市徐汇区龙兰路277号2号楼5楼5B04单元
法律状态 -

摘要

摘要 本发明提出一种基于非监督的文本去噪方法、系统、电子设备及存储介质,其方法技术方案包括文本收集步骤,根据预设的主题词收集包含所述主题词的文本数据;相似度计算步骤,计算所述主题词与一词向量数据库中目标词的相似度,并获取所述相似度满足一阈值要求的所有所述目标词作为主题相关词;噪声去除步骤,计算所述文本数据与所述主题相关词的匹配度,并将所述匹配度不满足一阈值要求的所述文本数据作为噪声去除。本发明采用计算文本内容与主题词相关程度的方法,避免了传统规则统计方法可能产生的误判,并可以解决监督算法识别未知新分类的难题。