一种基于机器学习的多特征文本数据相似度计算方法
基本信息
申请号 | CN201810838529.9 | 申请日 | - |
公开(公告)号 | CN109145111A | 公开(公告)日 | 2019-01-04 |
申请公布号 | CN109145111A | 申请公布日 | 2019-01-04 |
分类号 | G06F16/35;G06F17/27;G06K9/62 | 分类 | 计算;推算;计数; |
发明人 | 陈磊 | 申请(专利权)人 | 深圳市翼海云峰科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 518000 广东省深圳市福田区福田街道口岸社区福田南路38号广银大厦17层1716-05 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于机器学习的多特征文本数据相似度计算方法,使用文本矢量化算法将每条数据的每个特征转化为一个矢量数组;将每条数据的多个特征生成的矢量数据进行拼接,正则化处理,并将所有数据的对应矢量数组组成一个矩阵;可选地使用PCA算法对上述矩阵进行降维;由业务专家在上述数据中标注出一系列相似数据对,每个数据对由两条相似数据组成;基于上述相似数据对,计算出矢量距离映射矩阵,并基于该矩阵得到矢量距离计算公式;使用低精度聚合算法。该方法采用机器学习算法实现了多特征文本数据的距离计算,并使用低精度聚类方法降低了计算量,提升了算法性能。 |
