一种基于局部敏感哈希的主题标签快速赋予方法
基本信息
申请号 | CN201510697460.9 | 申请日 | - |
公开(公告)号 | CN105354264B | 公开(公告)日 | 2018-08-03 |
申请公布号 | CN105354264B | 申请公布日 | 2018-08-03 |
分类号 | G06F17/30;G06F17/28 | 分类 | 计算;推算;计数; |
发明人 | 黄河燕;毛先领;周强;任金伟 | 申请(专利权)人 | 华建宇通科技(北京)有限责任公司 |
代理机构 | - | 代理人 | - |
地址 | 100083 北京市海淀区学院路30号科群大厦(西楼203房间) | ||
法律状态 | - |
摘要
摘要 | 本发明提出了一种基于局部敏感哈希的主题标签快速赋予方法,属于文本挖掘技术领域。此方法将主题标签赋予问题转换成求K近邻的问题,包含离线数据库构建和在线查询两个部分。其中,离线部分利用标签主题模型对带标签的文档进行处理,得到一个“主题‑标签”数据库。在线部分通过局部敏感哈希在已经构建好的“主题‑标签”数据库中快速查找与待查主题最相似的主题,并把该主题的标签赋给待查主题,并进一步通过2种哈希采用序列融合技术优化结果。本发明能够实现主题标签的自动赋予,使得传统主题模型的结果变得可理解;对比现有技术,使用局部敏感哈希进行查找的方法使得效率大大提高,能够在大数据上获得较快较好的主题标签赋予效果。 |
