一种从文本中获取目标词汇的方法及系统

基本信息

申请号 CN201910152477.4 申请日 -
公开(公告)号 CN109918658A 公开(公告)日 2019-06-21
申请公布号 CN109918658A 申请公布日 2019-06-21
分类号 G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 曾俊瑀; 张文斌; 贾显伏; 乔咏田; 邢毅帆 申请(专利权)人 云孚科技(北京)有限公司
代理机构 北京世誉鑫诚专利代理事务所(普通合伙) 代理人 孙国栋
地址 100085 北京市海淀区上地五街7号一层101A室
法律状态 -

摘要

摘要 本发明公开的从文本中获取目标词汇的方法及系统,涉及数据处理技术领域,通过删除文本中的空白符号,将文本中的标点符号设置为空格符号,在文本的首部及尾部添加空格符号,设定文本片段的最大长度为K,根据最大长度K对文本进行分割,生成多个长度不大于K的文本片段,分别计算各个文本片段的聚合度、左熵及右熵,根据公式Score=(left_entropy+right_entropy)×aggregation×frequence,分别计算各个文本片段的综合分数,选取综合分数大于设定阈值的文本片段,得到候选词汇,将候选词汇与通用词表进行对比,识别候选词汇与通用词表之间存在的不同的词汇并将该词汇作为目标词汇,提高了获取目标词汇的准确度及效率。