一种短文本聚类的方法、系统及其数据处理装置
基本信息
申请号 | CN200910076791.5 | 申请日 | - |
公开(公告)号 | CN101477563B | 公开(公告)日 | 2010-11-10 |
申请公布号 | CN101477563B | 申请公布日 | 2010-11-10 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 刘文印;倪兴良;张加龙 | 申请(专利权)人 | 广东东华发思特软件有限公司 |
代理机构 | 北京律诚同业知识产权代理有限公司 | 代理人 | 梁挥;祁建国 |
地址 | 100872 北京市海淀区中关村大街59号文化大厦1207F室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种短文本聚类的方法、系统及其数据处理装置。该方法执行于一数据处理装置中,用于针对给定的短文本集进行聚类,包括:步骤1,将该给定的短文本集中的所有短文本作为一个类别;步骤2,从当前的所有类别中选择一个类别,从中寻找核心词汇;步骤3,如果找到,根据是否包含该核心词汇将所选择的类别分成两类,执行步骤2;步骤4,如果没找到,记录并删除该类别,从剩余的类别中选择一个类别,执行步骤2,直至没有剩余类别为止,所记录的类别作为聚类的结果。本发明以类间相似度最小,类内相似度最大的方式,将短文本依照其内在关联关系进行聚类,使使用者在大量数据中快速定位所需求的数据。计算复杂度较低,计算效率高。 |
