一种多策略清洗社交媒体文本数据的系统和方法
基本信息
申请号 | CN201710873539.1 | 申请日 | - |
公开(公告)号 | CN107633077A | 公开(公告)日 | 2018-01-26 |
申请公布号 | CN107633077A | 申请公布日 | 2018-01-26 |
分类号 | G06F17/30;G06F17/27;G06K9/62;G06Q50/00 | 分类 | 计算;推算;计数; |
发明人 | 薛涵凛;王颖 | 申请(专利权)人 | 南京安链数据科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 210000 江苏省南京市雨花台区雨花经济开发区凤华路18号1幢B315-6室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种多策略清洗社交媒体文本数据的系统,该系统包括:相似文本识别模块、营销文本识别模块和垃圾用户识别模块,多策略清洗社交媒体文本数据的方法包括步骤A:社交媒体文本的相似度计算,基于网络营销文本的特征和SVM分离器识别出营销文本,记录发布网络营销文本的用户;基于前两步记录发布“营销文本”和“重复文本”的用户黑名单。本发明的有益技术效果是:不局限于用一种手段实现社交媒体数据清洗,分步、多策略的对不同类型的垃圾文本实现过滤。对比单一的文本垃圾过滤和垃圾用户识别方法,本发明具有更好的适用性,有更广的应用前景。 |
