一种HTML文档信息抽取表达式的方法及系统

基本信息

申请号 CN201410681853.6 申请日 -
公开(公告)号 CN104462268B 公开(公告)日 2017-12-12
申请公布号 CN104462268B 申请公布日 2017-12-12
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 杜卫红;谢立欧 申请(专利权)人 深圳市比一比网络科技有限公司
代理机构 深圳市科吉华烽知识产权事务所(普通合伙) 代理人 深圳市比一比网络科技有限公司
地址 518000 广东省深圳市南山区同方信息港E栋5楼
法律状态 -

摘要

摘要 本发明适用于搜索引擎领域,提供了一种HTML文档信息抽取表达式的方法,所述方法包括:A、接收表达式并将表达式拆解成多个子表达式;B、利用选择器从HTML文档中抽取出每个子表达式数据所在的文档节点;C、从抽取的文档节点中抽取出每个表达式指定属性的值;D、根据正则表达式将抽取的指定属性的值进行正则抽取或替换;E、根据判断表达式配置对指定属性的值进行判断处理;F、根据预设范围值保留预设范围值内的子表达式的序号;G、判断是否有多个子表达式,多个子表达式以“与”和“或”的关系链接。通过抽取方法中增加对节点范围的顺序范围的表达和增加对对文本信息进行处理的能力,使得抽取到的结果更精确,本方法简单、操作方便。