HTML网页数据采集方法、装置和计算机可读存储介质

基本信息

申请号 CN201711094091.X 申请日 -
公开(公告)号 CN107784113A 公开(公告)日 2018-03-09
申请公布号 CN107784113A 申请公布日 2018-03-09
分类号 G06F17/30 分类 计算;推算;计数;
发明人 张帅 申请(专利权)人 深圳市科盾科技有限公司
代理机构 北京超凡志成知识产权代理事务所(普通合伙) 代理人 逯恒
地址 518000 广东省深圳市福田区益田路1006号益田花园二期20栋13楼1301室
法律状态 -

摘要

摘要 本发明提供了一种HTML网页数据采集方法,包括:判断当前页面是否包括列表页面;若是,则根据所述列表页面对所述当前页面生成目标列表模块;采集所述目标列表模块的详细页信息,并生成详细页路径规则。本发明还提供一种HTML网页数据采集装置和计算机可读存储介质。本发明通过对目标页面包含的列表页面的详细页路径规则进行直接抓取,从而在方法上简化了对HTML网页数据采集的步骤,由原来的由上到下的逐渐层级的去击中目标数据,改为了通过对当前页面的列表页面的详细页信息直接采集,从而使采集数据的用户直接面对目标数据,抓取过程中不会产生大量垃圾信息,数据抓取方法简便,提高了数据抓取效率,省时省力。