一种无意义句子识别的方法和设备

基本信息

申请号 CN201710255837.4 申请日 -
公开(公告)号 CN107066447B 公开(公告)日 2021-03-26
申请公布号 CN107066447B 申请公布日 2021-03-26
分类号 G06F40/211(2020.01)I 分类 计算;推算;计数;
发明人 姚佳 申请(专利权)人 广东惠禾科技发展有限公司
代理机构 北京超凡志成知识产权代理事务所(普通合伙) 代理人 马维丽
地址 518054广东省深圳市南山区粤海街道学府路2388号怡化金融科技大厦14楼01-02单元
法律状态 -

摘要

摘要 本发明提出了一种无意义句子识别的方法和设备,其中该方法包括:获取数量超过指定数量的预先确定了有无意义的标本句子;通过对所述标本句子进行特征抽取,获取到基于分词和词性处理得到的特征的概率特征值、以及获取到各类型字词以及标点的字数及字词比例;将所述概率特征值、所述字数以及所述字词比例在逻辑斯特回归模型中训练,得到无意义句子识别模型;当接收到待判断的新句子时,对所述新句子进行特征抽取,并基于所获取到的特征和所述无意义句子识别模型确定所述新句子是否为无意义句子。以此实现了对无意义句子的识别,且还通过标点的字数及字词比例来进行训练,实现了不同场景下对无意义句子的不同标准的识别。