一种基于网络爬虫的知识图谱数据抽取方法及装置

基本信息

申请号 CN202110034207.0 申请日 -
公开(公告)号 CN112800305A 公开(公告)日 2021-05-14
申请公布号 CN112800305A 申请公布日 2021-05-14
分类号 G06F16/951;G06F16/36;G06F40/205 分类 计算;推算;计数;
发明人 洪万福;钱智毅;吴文杰 申请(专利权)人 厦门渊亭信息科技有限公司
代理机构 北京鼎承知识产权代理有限公司 代理人 王义刚;赖庆梧
地址 361000 福建省厦门市软件园二期望海路61号801单元N8-01
法律状态 -

摘要

摘要 本发明实施例提供了一种基于网络爬虫的知识图谱数据抽取方法、装置、可读存储介质及计算设备,用于实现爬虫代码复用,批量深度自动化爬取网页数据,避免页面变化导致需要大量修改网页解析的代码。方法包括:获取用于爬取数据的目标网页;配置所述目标网页的爬取规则和解析规则;根据所述爬取规则爬取所述目标网页和所述目标网页链接的网页;以及,根据所述解析规则获取所述目标网页和所述目标网页链接的网页中包含的实体信息与关系信息;根据所述实体信息与关系信息生成知识图谱。