网页内容自动提取方法
基本信息
申请号 | CN201811067868.8 | 申请日 | - |
公开(公告)号 | CN109325204B | 公开(公告)日 | 2022-01-07 |
申请公布号 | CN109325204B | 申请公布日 | 2022-01-07 |
分类号 | G06F16/958(2019.01)I;G06F16/957(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 王世阳;李阳 | 申请(专利权)人 | 武汉伯远生物科技有限公司 |
代理机构 | 上海精晟知识产权代理有限公司 | 代理人 | 冯子玲 |
地址 | 430000湖北省武汉市东湖开发区高新大道666号武汉国家生物产业基地项目B、C、D区研发楼B1栋(B8-5) | ||
法律状态 | - |
摘要
摘要 | 本发明属于网页内容提取技术领域,具体涉及一种网页内容自动提取方法,特别是适用于期刊文献摘要页面内容的提取,包括:S1、将HTML重新渲染;S2、对DOM树进行分割;S3、对侯选视觉块进行预标注;S4、对侯选视觉块进行标注。该方法采用快速傅里叶变换(FFT)和对数盖伯滤波器取代传统视觉算法,降低了时间、空间复杂度,提高了算法的时间、空间效率。 |
