一种用于网络文章的摘要自动提取方法

基本信息

申请号 CN201810894746.X 申请日 -
公开(公告)号 CN109255022B 公开(公告)日 2021-11-23
申请公布号 CN109255022B 申请公布日 2021-11-23
分类号 G06F16/34(2019.01)I;G06F40/258(2020.01)I;G06F40/211(2020.01)I;G06F40/289(2020.01)I 分类 计算;推算;计数;
发明人 鄢军;袁传义;徐光杰;林建波 申请(专利权)人 优赛恒创科技发展(北京)有限公司
代理机构 上海衡方知识产权代理有限公司 代理人 朱穆峰
地址 100022北京市朝阳区建国路91号院9号楼10层1018室
法律状态 -

摘要

摘要 本发明记载了一种用于网络文章的摘要自动提取方法,包括:获取文章;设置摘要长度;提取关键词,并获取关键词的权重和词性;对获得的关键词进行汉语词性标注;获取关键词列表Tags;获取标题关键词列表和正文关键词列表;获取相同的关键词列表;加权平均;分段处理;获取词的命中个数和权重累计值;得到最终的摘要等步骤。由于采用了上述步骤,本发明可以将网络抓取的文章自动获取摘要后存储在数据库中,为后面的检索和显示提供了基本的保证,并具备了思路简单有效、实现方式简单等有益效果,最终在确保提取准确率的同时实现了简洁高效,从而可以在有限的时间里高效、高质量处理海量网络文章。