一种多策略清洗社交媒体文本数据的系统和方法

基本信息

申请号 CN201710873539.1 申请日 -
公开(公告)号 CN107633077A 公开(公告)日 2018-01-26
申请公布号 CN107633077A 申请公布日 2018-01-26
分类号 G06F17/30;G06F17/27;G06K9/62;G06Q50/00 分类 计算;推算;计数;
发明人 薛涵凛;王颖 申请(专利权)人 南京安链数据科技有限公司
代理机构 - 代理人 -
地址 210000 江苏省南京市雨花台区雨花经济开发区凤华路18号1幢B315-6室
法律状态 -

摘要

摘要 本发明公开了一种多策略清洗社交媒体文本数据的系统,该系统包括:相似文本识别模块、营销文本识别模块和垃圾用户识别模块,多策略清洗社交媒体文本数据的方法包括步骤A:社交媒体文本的相似度计算,基于网络营销文本的特征和SVM分离器识别出营销文本,记录发布网络营销文本的用户;基于前两步记录发布“营销文本”和“重复文本”的用户黑名单。本发明的有益技术效果是:不局限于用一种手段实现社交媒体数据清洗,分步、多策略的对不同类型的垃圾文本实现过滤。对比单一的文本垃圾过滤和垃圾用户识别方法,本发明具有更好的适用性,有更广的应用前景。