计算文本语义距离的方法、去重方法、聚类方法以及装置

基本信息

申请号 CN201810892067.9 申请日 -
公开(公告)号 CN109033087A 公开(公告)日 2018-12-18
申请公布号 CN109033087A 申请公布日 2018-12-18
分类号 G06F17/27;G06F17/22;G06F17/30 分类 计算;推算;计数;
发明人 孙雨轩;吴成龙 申请(专利权)人 中证数智科技(深圳)有限公司
代理机构 - 代理人 -
地址 518038 广东省深圳市福田区深南大道2012号深圳证券交易所广场44楼
法律状态 -

摘要

摘要 本发明公开了一种计算文本语义距离的方法、去重方法、聚类方法及装置,计算文本语义距离的方法包括:获取第一及第二文本;判断第一及第二文本之间是否需要进行语义距离计算;若是,对第一及第二文本进行预处理以得到第一及二句子集合;将第一及第二句子集合中公开的主体替换为对应的唯一编码,获取第一及第二句子集合中的唯一编码以形成第一及第二编码集合,获取第一及第二句子集合中的关键词以形成第一及第二关键词集合及每一关键词的权重;转换第一及第二关键词集合中的每一关键词,以得到第一及第二文本特征向量;根据第一编码集合、第一文本特征向量、第一文本发布时间及第二编码集合、第二文本特征向量、第二文本发布时间计算两文本语义距离。