基于电商用户行为数据的近义词识别方法

基本信息

申请号 CN201510129041.5 申请日 -
公开(公告)号 CN104657514B 公开(公告)日 2018-05-25
申请公布号 CN104657514B 申请公布日 2018-05-25
分类号 G06F17/30 分类 计算;推算;计数;
发明人 王军;甘骏;彭中正;王磊;张迪;肖琴 申请(专利权)人 成都知数科技有限公司
代理机构 - 代理人 -
地址 610000 四川省成都市高新西区西芯大道4号
法律状态 -

摘要

摘要 本发明公开了一种基于电商用户行为数据的近义词识别方法,解决了现有技术中如何识别商品标题关键词的命名实体和对命名实体的近义词识别的问题。该识别方法包括:(1)将原始数据进行数据预处理;(2)随机选择部分商品描述数据分词并进行标注;(3)返回标注的商品描述数据并作为隐马尔可夫算法模型的训练集数据;(4)通过训练集数据训练出隐马尔可夫算法模型的参数,建立隐马尔可夫算法模型,得到结果数据有效实体词库;(5)过滤用户行为数据;(6)组成多个相似词类数据集;(7)组成与相似词类数据集数量对应的近义词组;(8)整理汇总所有近义词组,计算词与词之间的相似度;(9)输出近义词识别结果。