一种智能化网页内容自动模糊抽取系统专利查询专利号|摘要-满商公司网

一种智能化网页内容自动模糊抽取系统

基本信息

摘要

摘要	本发明公开了一种智能化网页内容模糊抽取系统，包括模块A：HTML网页语料库的预处理；模块B：HTML网页内容的快速多重索引的自动生成；模块C：候选业务主题的生成；模块D：候选业务主题的模糊验证；模块E：候选业务主题与对应的XPath关联；模块F：HTML网页内容的抽取。这种方法具有两个优势：(1)不依赖网页内容抽取模板。(2)对网页中的业务主题进行自动模糊识别，准确判断它们的含义。上述两个特点，确保了本发明的网页内容自动抽取的准确率和召回率。