一种基于自然语言特征提取有效告警数据的方法

基本信息

申请号 CN201911095317.7 申请日 -
公开(公告)号 CN112784592A 公开(公告)日 2021-05-11
申请公布号 CN112784592A 申请公布日 2021-05-11
分类号 G06F40/284;G06F16/35 分类 计算;推算;计数;
发明人 何毅鹏;葛艳芳 申请(专利权)人 四川睿象科技有限公司
代理机构 - 代理人 -
地址 610000 四川省成都市中国(四川)自由贸易试验区成都高新区吉泰五路88号3栋29层11号
法律状态 -

摘要

摘要 本发明公开了一种基于自然语言特征提取有效告警数据的方法,包括局部敏感hash模块和编辑距离算法模块,所述局部敏感hash算法模块包括分词模块,hash模块,加权模块,合并模块,降维模块;所述分词模块给定一段语句,进行分词,得到有效的特征向量,然后为每一个特征向量设置1‑5等5个级别的权重;所述hash模块通过hash函数计算各个特征向量的hash值;所述加权模块在hash值的基础上,给所有特征向量进行加权;所述合并模块将各特征向量的加权结果累加,变成只有一个序列串;所述降维模块用于得到语句的simhash值;所述编辑距离算法模块将hash值进行相似度聚类。