基于大数据的网络数据抓取方法

基本信息

申请号 CN202010187194.6 申请日 -
公开(公告)号 CN111414524A 公开(公告)日 2020-07-14
申请公布号 CN111414524A 申请公布日 2020-07-14
分类号 G06F16/951(2019.01)I 分类 -
发明人 张俊杰;耿雁萍 申请(专利权)人 安徽火蓝数据有限公司
代理机构 北京风雅颂专利代理有限公司 代理人 王刚
地址 241000安徽省芜湖市鸠江区国泰路2号中国电信集团芜湖云计算中心4楼(申报承诺)
法律状态 -

摘要

摘要 本发明提供了一种基于大数据的网络数据抓取方法,包括将监听终端配置为代理服务器;目标APP通过所述代理服务器向目标服务器发送通信数据;所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据;所述代理服务器根据大数据分析获得目标字段;配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。本发明通过将监听终端配置为代理服务器,代理服务器模拟所述目标APP向所述目标服务器发送通信数据,在通过大数据分析或者目标字段之后,配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。从而能够自动抓取网络新闻热点,无需人工进行配置,高效化、智能化。