生成文档摘要的方法和装置
基本信息
申请号 | CN201611199875.4 | 申请日 | - |
公开(公告)号 | CN108228541B | 公开(公告)日 | 2021-08-03 |
申请公布号 | CN108228541B | 申请公布日 | 2021-08-03 |
分类号 | G06F40/10(2020.01)I;G06F40/253(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 张剑;刘轶;王宝岩;黄石磊 | 申请(专利权)人 | 深圳市北科瑞声科技股份有限公司 |
代理机构 | 广州华进联合专利商标代理有限公司 | 代理人 | 谢曲曲 |
地址 | 518057广东省深圳市南山区高新区南区深港产学研基地大楼西座四楼W406室 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种生成文档摘要的方法,包括对文档集进行预处理并通过潜在狄利克雷模型或者向量空间模型对词表集合进行处理,得到每个词汇对应的权重,将句子集合中每个句子对应的所有词汇权重相加,得到对应的内部信息量得分,根据预设相似度阈值,确定每个句子对应的相似句及相似句数量,计算得到对应的重要性得分,将每个句子的相似句数量与每个句子的所有相似句各自对应的相似句数量进行比较,计算得到每个句子的多样性得分,进而计算得到每个句子的综合性得分,最后根据每个句子的综合性得分和预设的摘要长度进行筛选并生成文档摘要。此外还提供一种生成文档摘要的装置。上述生成文档摘要的方法和装置,从整体上降低了摘要的冗余度。 |
