一种智能化网页内容自动模糊抽取系统
基本信息
申请号 | CN201811511109.6 | 申请日 | - |
公开(公告)号 | CN109657180A | 公开(公告)日 | 2019-04-19 |
申请公布号 | CN109657180A | 申请公布日 | 2019-04-19 |
分类号 | G06F16/958(2019.01)I; G06F16/951(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 符建辉; 张燎 | 申请(专利权)人 | 中科国力(镇江)智能技术有限公司 |
代理机构 | 南京知识律师事务所 | 代理人 | 中科国力(镇江)智能技术有限公司 |
地址 | 212000 江苏省镇江市高新技术产业开发区经十二路668号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种智能化网页内容模糊抽取系统,包括模块A:HTML网页语料库的预处理;模块B:HTML网页内容的快速多重索引的自动生成;模块C:候选业务主题的生成;模块D:候选业务主题的模糊验证;模块E:候选业务主题与对应的XPath关联;模块F:HTML网页内容的抽取。这种方法具有两个优势:(1)不依赖网页内容抽取模板。(2)对网页中的业务主题进行自动模糊识别,准确判断它们的含义。上述两个特点,确保了本发明的网页内容自动抽取的准确率和召回率。 |
