基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法

基本信息

申请号 CN202010222449.8 申请日 -
公开(公告)号 CN111428112A 公开(公告)日 2020-07-17
申请公布号 CN111428112A 申请公布日 2020-07-17
分类号 G06F16/951;G06F16/9535;G06F16/33;G06F16/335;G06F40/289 分类 -
发明人 王璐;朱广文;张建民;魏晓泉 申请(专利权)人 上海浩方信息技术有限公司
代理机构 上海智信专利代理有限公司 代理人 上海浩方信息技术有限公司
地址 201203 上海市浦东新区中国(上海)自由贸易试验区郭守敬路498号14幢22301-980座
法律状态 -

摘要

摘要 本发明涉及一种基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法,包括通过开源框架进行资源爬虫,获取所需的目标业务资源;根据NPL分词技术对获取的目标业务资源进行分词,实现资讯分词匹配;根据预设关键字、领域和权重值,进行资讯筛选并推荐。采用了本发明的基于开源框架进行爬虫检索及大数据智能推荐优化处理的方法,提高目标用户的网络资源获取能力及智能推荐算法功能,通过开源HttpClient技术与python算法包相结合实现网络爬虫技术,大大降低甚至直接省去部分人工投入及时间成本,且爬虫资源管理有较高的灵活性及可扩展性;为目标用户执行智能推荐算法调度,实现按需过滤并筛选出有效资讯。