网页正文的提取方法、装置、服务器和存储介质

基本信息

申请号 CN201911329406.3 申请日 -
公开(公告)号 CN111061955A 公开(公告)日 2020-04-24
申请公布号 CN111061955A 申请公布日 2020-04-24
分类号 G06F16/9535;G06F16/9538 分类 计算;推算;计数;
发明人 方志杰;房海灏;熊兴文 申请(专利权)人 深圳市朱墨科技有限公司
代理机构 北京品源专利代理有限公司 代理人 深圳市朱墨科技有限公司
地址 518000 广东省深圳市南山区粤海街道高新区南区科技南十二路金蝶软件园B栋603室
法律状态 -

摘要

摘要 本发明实施例提供了一种网页正文的提取方法、装置、服务器和存储介质。该网页正文的提取方法包括:接收用户输入的查询关键字;基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。通过使用多个提取引擎提取正文文本,再确定目标正文文本,达到获取高质量的正文信息,提高正文信息内容的准确性的效果。