网页正文的提取方法、装置、服务器和存储介质
基本信息

| 申请号 | CN201911329406.3 | 申请日 | - |
| 公开(公告)号 | CN111061955A | 公开(公告)日 | 2020-04-24 |
| 申请公布号 | CN111061955A | 申请公布日 | 2020-04-24 |
| 分类号 | G06F16/9535;G06F16/9538 | 分类 | 计算;推算;计数; |
| 发明人 | 方志杰;房海灏;熊兴文 | 申请(专利权)人 | 深圳市朱墨科技有限公司 |
| 代理机构 | 北京品源专利代理有限公司 | 代理人 | 深圳市朱墨科技有限公司 |
| 地址 | 518000 广东省深圳市南山区粤海街道高新区南区科技南十二路金蝶软件园B栋603室 | ||
| 法律状态 | - | ||
摘要

| 摘要 | 本发明实施例提供了一种网页正文的提取方法、装置、服务器和存储介质。该网页正文的提取方法包括:接收用户输入的查询关键字;基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。通过使用多个提取引擎提取正文文本,再确定目标正文文本,达到获取高质量的正文信息,提高正文信息内容的准确性的效果。 |





