一种数据标签生成方法和装置
基本信息
申请号 | CN201710347975.5 | 申请日 | - |
公开(公告)号 | CN107301199B | 公开(公告)日 | 2017-10-27 |
申请公布号 | CN107301199B | 申请公布日 | 2017-10-27 |
分类号 | G06F16/242(2019.01)I;G06F16/35(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 李晖;胡宁杭;郑悦 | 申请(专利权)人 | 北京融数云途科技有限公司 |
代理机构 | 广州华进联合专利商标代理有限公司 | 代理人 | 缪成珠 |
地址 | 100080北京市海淀区苏州街3号502-60室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种数据标签生成方法和装置,涉及互联网数据领域。本发明方法包括:获取原始文本数据;利用顶层主题数据库分析得到多个顶层主题文本数据;预处理顶层主题文本数据得到顶层主题预处理文本数据;提取顶层主题预处理文本数据中所有文档Tf‑idf特征值得到矩阵数据;对矩阵数据进行主题聚类得到多个不同主题聚类;从每个主题聚类中关键词并由高至低排序;根据实际应用对关键词排序表进行校正,留取与对应的主题聚类内容相关度密切且正确表达对应主题聚类内容的关键词;根据新关键词排序表得到各主题聚类的标签。本发明方法可快速高效对海量数据进行主题聚类,所得标签体系结构完整、内容丰富以、更贴近实际应用以便于用户使用。 |
