一种基于分布式网络爬虫的内容聚合方法
基本信息
申请号 | CN201510724024.6 | 申请日 | - |
公开(公告)号 | CN105279272A | 公开(公告)日 | 2016-01-27 |
申请公布号 | CN105279272A | 申请公布日 | 2016-01-27 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 黄韬;魏亮;魏静波;邓晓涛;周洪利 | 申请(专利权)人 | 江苏未来网络集团有限公司 |
代理机构 | 江苏圣典律师事务所 | 代理人 | 南京未来网络产业创新有限公司 |
地址 | 211100 江苏省南京市江宁经济开发区秣周东路12号悠谷2号楼1503室 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种基于分布式网络爬虫的内容聚合方法,首先将不同的爬虫平台设置在不同的设备上,向爬取的网络信息来源端发送请求,爬虫平台根据用户所需求的目标信息制定爬取规则,抓取目标用户所感兴趣的信息;将所述爬取得到的网络信息进行处理,基于实时数据库中的数据传递及转换方法结合局部敏感哈希(LSH)方法,结合局部敏感哈希(LSH)方法,进行相似度检测从而降低信息的冗余度;系统对筛选过的信息按类别、热度、关键字进行分类排序,并展示在用户设备上。该方法根据实际网络中获取得到的数据信息进行LSH进行相似度对比得到对比结果,与现有技术中采用传统的整条数据查重方式得到的对比结果,其计算速度更快、相似度对比更精确。 |
