一种短文本聚类的方法、系统及其数据处理装置

基本信息

申请号 CN200910076791.5 申请日 -
公开(公告)号 CN101477563B 公开(公告)日 2010-11-10
申请公布号 CN101477563B 申请公布日 2010-11-10
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 刘文印;倪兴良;张加龙 申请(专利权)人 广东东华发思特软件有限公司
代理机构 北京律诚同业知识产权代理有限公司 代理人 梁挥;祁建国
地址 100872 北京市海淀区中关村大街59号文化大厦1207F室
法律状态 -

摘要

摘要 本发明公开了一种短文本聚类的方法、系统及其数据处理装置。该方法执行于一数据处理装置中,用于针对给定的短文本集进行聚类,包括:步骤1,将该给定的短文本集中的所有短文本作为一个类别;步骤2,从当前的所有类别中选择一个类别,从中寻找核心词汇;步骤3,如果找到,根据是否包含该核心词汇将所选择的类别分成两类,执行步骤2;步骤4,如果没找到,记录并删除该类别,从剩余的类别中选择一个类别,执行步骤2,直至没有剩余类别为止,所记录的类别作为聚类的结果。本发明以类间相似度最小,类内相似度最大的方式,将短文本依照其内在关联关系进行聚类,使使用者在大量数据中快速定位所需求的数据。计算复杂度较低,计算效率高。