一种文本聚类方法及装置

基本信息

申请号 CN201910250896.1 申请日 -
公开(公告)号 CN110083828A 公开(公告)日 2019-08-02
申请公布号 CN110083828A 申请公布日 2019-08-02
分类号 G06F17/27;G06F16/35 分类 计算;推算;计数;
发明人 王晓琳 申请(专利权)人 珠海远光消防科技有限公司
代理机构 北京天达知识产权代理事务所(普通合伙) 代理人 庞许倩;裴红
地址 519000 广东省珠海市横琴新区宝华路6号105室-4675
法律状态 -

摘要

摘要 本发明涉及一种文本聚类方法及装置,解决了现有文本聚类存在的文本聚类时间长、效率低、效果差的问题。本发明中的文本聚类方法包括以下步骤:采集数据构建文本库,得到所述文本库中的所有特征词,根据各特征词在文本库所有特征词中出现的频次,得到各特征词的权重,将特征词及对应的特征词权重保存至数据库中;采集各待聚类文本,获取所述各待聚类文本中的特征词;根据所述各待聚类文本中的特征词及其在所述数据库中的权重,得到各特征词的词向量、各待聚类文本的句向量以及所有待聚类文本的特征向量;利用所述待聚类文本的特征向量,对所述待聚类文本进行聚类。本发明中方法能够有效缩短文本聚类时间、提升聚类效率、达到较好的聚类效果。