基于分布式架构的可视化主题网页内容爬取系统及方法

基本信息

申请号 CN201811041524.X 申请日 -
公开(公告)号 CN109284430A 公开(公告)日 2019-01-29
申请公布号 CN109284430A 申请公布日 2019-01-29
分类号 G06F16/951 分类 计算;推算;计数;
发明人 王科 申请(专利权)人 杭州艾塔科技有限公司
代理机构 - 代理人 -
地址 310052 浙江省杭州市滨江区长河街道越达巷79号2幢6层609室
法律状态 -

摘要

摘要 本发明主要公开了基于分布式架构的可视化主题网页内容爬取系统及方法,其技术方案:包括包括三大子系统,分别为可视化子系统、爬取子系统以及分布式存储索引子系统;网页内容爬取方法通过任务初始化提交,任务生成,任务调度,任务执行,任务状态跟踪五大步骤进行,本发明能够高效并发支持网页内容请求,爬取各种主题网站,解析页面源代码后把非结构化数据变成结构化数据存放在分布式存储系统上索引,可以有效支撑后续大规模结构化数据的分析和挖掘,同时本发明在提高数据采集效率情况下能大大降低海量网页采集的软硬件成本。