一种文本聚类方法及装置
基本信息
申请号 | CN201910250896.1 | 申请日 | - |
公开(公告)号 | CN110083828A | 公开(公告)日 | 2019-08-02 |
申请公布号 | CN110083828A | 申请公布日 | 2019-08-02 |
分类号 | G06F17/27;G06F16/35 | 分类 | 计算;推算;计数; |
发明人 | 王晓琳 | 申请(专利权)人 | 珠海远光消防科技有限公司 |
代理机构 | 北京天达知识产权代理事务所(普通合伙) | 代理人 | 庞许倩;裴红 |
地址 | 519000 广东省珠海市横琴新区宝华路6号105室-4675 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种文本聚类方法及装置,解决了现有文本聚类存在的文本聚类时间长、效率低、效果差的问题。本发明中的文本聚类方法包括以下步骤:采集数据构建文本库,得到所述文本库中的所有特征词,根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,将特征词及对应的特征词权重保存至数据库中;采集各待聚类文本,获取所述各待聚类文本中的特征词;根据所述各待聚类文本中的特征词及其在所述数据库中的权重,得到各特征词的词向量、各待聚类文本的句向量以及所有待聚类文本的特征向量;利用所述待聚类文本的特征向量,对所述待聚类文本进行聚类。本发明中方法能够有效缩短文本聚类时间、提升聚类效率、达到较好的聚类效果。 |
