网页内容自动提取方法

基本信息

申请号 CN201811067868.8 申请日 -
公开(公告)号 CN109325204B 公开(公告)日 2022-01-07
申请公布号 CN109325204B 申请公布日 2022-01-07
分类号 G06F16/958(2019.01)I;G06F16/957(2019.01)I 分类 计算;推算;计数;
发明人 王世阳;李阳 申请(专利权)人 武汉伯远生物科技有限公司
代理机构 上海精晟知识产权代理有限公司 代理人 冯子玲
地址 430000湖北省武汉市东湖开发区高新大道666号武汉国家生物产业基地项目B、C、D区研发楼B1栋(B8-5)
法律状态 -

摘要

摘要 本发明属于网页内容提取技术领域,具体涉及一种网页内容自动提取方法,特别是适用于期刊文献摘要页面内容的提取,包括:S1、将HTML重新渲染;S2、对DOM树进行分割;S3、对侯选视觉块进行预标注;S4、对侯选视觉块进行标注。该方法采用快速傅里叶变换(FFT)和对数盖伯滤波器取代传统视觉算法,降低了时间、空间复杂度,提高了算法的时间、空间效率。