一种基于Jxbrowser的网页采集技术
基本信息
申请号 | CN202010303619.5 | 申请日 | - |
公开(公告)号 | CN111523064A | 公开(公告)日 | 2020-08-11 |
申请公布号 | CN111523064A | 申请公布日 | 2020-08-11 |
分类号 | G06F16/955(2019.01)I | 分类 | - |
发明人 | 徐利东;远贵良 | 申请(专利权)人 | 山东贝赛信息科技有限公司 |
代理机构 | 济南瑞宸知识产权代理有限公司 | 代理人 | 山东贝赛信息科技有限公司 |
地址 | 250000山东省济南市经十路7000号汉峪金谷金融商务中心A4-(3)办公楼34层3401室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于Jxbrowser的网页采集技术,步骤1:数据初始化;步骤2:保存路径;步骤3:代理ip地址和端口;步骤4:加载数据完成初始化;步骤5:资源定位;步骤6:获取内容;步骤7:完成采集。本发明可实现如下技术效果,可实现了对动态网页的采集,可实现了对加密网页的采集,采集效率比同类的技术效率大幅度提升,支持通过代理ip访问网页地址。 |
