电商页面的结构化数据提取装置、方法及可读存储介质
基本信息
申请号 | CN201911094002.0 | 申请日 | - |
公开(公告)号 | CN110874428A | 公开(公告)日 | 2020-03-10 |
申请公布号 | CN110874428A | 申请公布日 | 2020-03-10 |
分类号 | G06F16/951;G06F16/955;G06Q30/06 | 分类 | 计算;推算;计数; |
发明人 | 吴良顺 | 申请(专利权)人 | 汉口北进出口服务有限公司 |
代理机构 | 深圳市赛恩倍吉知识产权代理有限公司 | 代理人 | 汉口北进出口服务有限公司 |
地址 | 430312 湖北省武汉市黄陂区汉口北三号仓储中心汉口北国际贸易港三楼 | ||
法律状态 | - |
摘要
摘要 | 一种电商页面的结构化数据提取方法、装置及计算机可读存储介质,所述方法包括:获取电商页面并对所述电商页面进行预处理;基于预处理后的电商页面生成超文本标签树;从所述超文本标签树中遍历出预设标签的页面文本;将遍历得到的页面文本中的预设属性值与预设词库中的每一词语进行逐一匹配,以得到与所述预设词库的词语匹配的匹配文本;及将匹配得到的匹配文本按照预设顺序进行排序并输出商品结构化摘要。本发明可对抓取的电商页面进行解析,进而提取得到关于商品的结构化信息集。 |
