网页数据采集方法、装置及计算机可读存储介质
基本信息
申请号 | CN201910327071.5 | 申请日 | - |
公开(公告)号 | CN110334259A | 公开(公告)日 | 2019-10-15 |
申请公布号 | CN110334259A | 申请公布日 | 2019-10-15 |
分类号 | G06F16/951;G06F16/958 | 分类 | 计算;推算;计数; |
发明人 | 吴宇航;熊小兵;易宇豪 | 申请(专利权)人 | 新分享科技服务(深圳)有限公司 |
代理机构 | 深圳市恒程创新知识产权代理有限公司 | 代理人 | 新分享科技服务(深圳)有限公司 |
地址 | 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司) | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种网页数据采集方法、装置以及计算机可读存储介质,包括以下步骤:获取预设的目标网址以及数据采集模板;根据所述数据采集模板获取所述目标网址的访问数据信息,所述访问数据信息包括数据内容、数据发布时间、数据来源以及标题;存储所述访问数据信息。因本发明能够根据目标网址的超文本标记语言信息生成对应的数据采集模板,然后按照预设采集规则通过数据采集模板采集目标网址的访问数据信息,从而解决了在有大量舆情信息数据的情况下人工收集舆情信息的方式效率较低的问题。 |
