一种从文本中提取目标关键词的方法

基本信息

申请号 CN201910152460.9 申请日 -
公开(公告)号 CN109918657A 公开(公告)日 2019-06-21
申请公布号 CN109918657A 申请公布日 2019-06-21
分类号 G06F17/27(2006.01)I; G06F16/35(2019.01)I 分类 计算;推算;计数;
发明人 曾俊瑀; 张文斌; 贾显伏; 乔咏田; 李德方 申请(专利权)人 云孚科技(北京)有限公司
代理机构 北京世誉鑫诚专利代理事务所(普通合伙) 代理人 孙国栋
地址 100085 北京市海淀区上地五街7号一层101A室
法律状态 -

摘要

摘要 本发明公开的文本中提取目标关键词的方法,涉及数据挖掘技术领域,利用基于统计学的规则分句技术,将文本分割为多个分句,利用语言技术平台LTP对各个分句进行分词,得到多个词句,分别对各个词句的词性进行标注并获取各个词句之间的句法依存关系,选取标注为名词的词句,生成第一候选关键词集合,分别计算第二候选关键词集合中各个词句在文本中的覆盖率,并根据综合分计算公式,计算第二候选关键词集合中各个词句的综合分数,根据K‑means算法及各个词句在关键词字典中的值,分别计算各个词向量与选定的K个词向量的距离,根据距离的大小,分别选择与K个词向量距离最近的词向量,得到K个目标关键词,提高了目标关键词提取的准确率及效率。