一种基于自然语言特征提取有效告警数据的方法
基本信息
申请号 | CN201911095317.7 | 申请日 | - |
公开(公告)号 | CN112784592A | 公开(公告)日 | 2021-05-11 |
申请公布号 | CN112784592A | 申请公布日 | 2021-05-11 |
分类号 | G06F40/284;G06F16/35 | 分类 | 计算;推算;计数; |
发明人 | 何毅鹏;葛艳芳 | 申请(专利权)人 | 四川睿象科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 610000 四川省成都市中国(四川)自由贸易试验区成都高新区吉泰五路88号3栋29层11号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于自然语言特征提取有效告警数据的方法,包括局部敏感hash模块和编辑距离算法模块,所述局部敏感hash算法模块包括分词模块,hash模块,加权模块,合并模块,降维模块;所述分词模块给定一段语句,进行分词,得到有效的特征向量,然后为每一个特征向量设置1‑5等5个级别的权重;所述hash模块通过hash函数计算各个特征向量的hash值;所述加权模块在hash值的基础上,给所有特征向量进行加权;所述合并模块将各特征向量的加权结果累加,变成只有一个序列串;所述降维模块用于得到语句的simhash值;所述编辑距离算法模块将hash值进行相似度聚类。 |
