基于网络爬虫的批量提取处理文本信息的系统及方法

基本信息

申请号 CN202110137453.9 申请日 -
公开(公告)号 CN112905865A 公开(公告)日 2021-06-04
申请公布号 CN112905865A 申请公布日 2021-06-04
分类号 G06F16/951;G06F16/958;G06F16/35;G06F16/18 分类 计算;推算;计数;
发明人 郭振江;杨成凯;戴薇;谢亚飞 申请(专利权)人 中金云金融(北京)大数据科技股份有限公司
代理机构 北京献智知识产权代理事务所(特殊普通合伙) 代理人 杨献智
地址 100176 北京市大兴区北京经济技术开发区博兴八路1号2幢2318室
法律状态 -

摘要

摘要 本发明公开一种基于网络爬虫的批量提取处理文本信息的系统及方法,其中,系统包括:格式解析单元,其用于对存储的所有文档的格式进行分析,转换为文本信息,并统一为HTML语言的格式文档;解析库单元,其与格式解析单元通信连接,用于存储经格式解析单元转换格式后的格式文档;爬虫单元,其与解析库单元通信连接,用于提供文本信息的文本特征值集合,通过构建爬虫获取解析库单元中与文本特征值集合相匹配的格式文档,爬取出目标文本信息;以及统计单元,其与爬虫单元通信连接,用于抽取目标文本信息并进行统计。