一种基于短文本相似度的税务商品编码分类方法及系统

基本信息

申请号 CN201711085221.3 申请日 -
公开(公告)号 CN107862046A 公开(公告)日 2018-03-30
申请公布号 CN107862046A 申请公布日 2018-03-30
分类号 G06F17/30;G06F17/27 分类 计算;推算;计数;
发明人 庞胜民;王涛;孙科武;林文辉;高哲;张浩 申请(专利权)人 宁波爱信诺航天信息有限公司
代理机构 宁波高新区核心力专利代理事务所(普通合伙) 代理人 宁波爱信诺航天信息有限公司;航天信息股份有限公司
地址 315000 浙江省宁波市高新区光华路299弄14幢34、35号
法律状态 -

摘要

摘要 本发明公开了一种基于短文本相似度的税务商品编码分类方法及系统,所述方法包括:获取样本数据;对样本数据进行分词;获得扩展词;计算KL差异熵,以获得待分类税务商品编码与已有类别之间的差异度,根据所述差异度完成所述分类。本发明对商品文本信息进行具体分类,分为本体词和扩展词,本体词通过应用先进的分词技术对商品的短文本进行中文分词获得,扩展词集合包括索引词和缩略词,扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后,利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度,改进了该计算模型,同时引入了平滑参数,在计算其条件词频与反词频、条件概率等值时,防止分母出现0的情况,此外也提高了相似度计算的效率。