一种基于神经网络模型和规则结合的冗余表达去除方法
基本信息
申请号 | CN201910957412.7 | 申请日 | - |
公开(公告)号 | CN110807312A | 公开(公告)日 | 2020-02-18 |
申请公布号 | CN110807312A | 申请公布日 | 2020-02-18 |
分类号 | G06F40/211;G06F40/232;G06F40/284 | 分类 | 计算;推算;计数; |
发明人 | 杨理想;张侨;王银瑞;陈振平 | 申请(专利权)人 | 南京摄星智能科技有限公司 |
代理机构 | 南京中律知识产权代理事务所(普通合伙) | 代理人 | 南京摄星智能科技有限公司 |
地址 | 210000 江苏省南京市经济技术开发区兴智路6号兴智科技园C栋1211室 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了基于神经网络模型和规则结合的冗余表达去除方法,包括重复表达部分、语气词部分和模型识别部分三部分的冗余去除。相比传统单一使用规则去除冗余表达的方法,有如下优点:(1)可以去除冗余的长句,规则对于较长的冗余的句子不能去除,本发明训练的模型可以实现去除;(2)支持错别字去除并能去除到规则无法穷举的词汇,传统的规则无法统计到所有的冗余词汇,本发明通过大量人工标注的数据,经过训练得到的模型可以去除掉规则没有列举到的词语;(3)模型去除冗余更智能,本发明的训练模型在去除冗余表达词语的时候会判断去除该词语是否会使句子不通顺,如果使得句子不通顺,则不去除,相比规则去除方法,更加智能并保持语义完整。 |
