一种实现智能联想的行业词语关联度分词方法

基本信息

申请号 CN201310430100.3 申请日 -
公开(公告)号 CN104462052A 公开(公告)日 2015-03-25
申请公布号 CN104462052A 申请公布日 2015-03-25
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 周小伟;商杰 申请(专利权)人 上海博科资讯股份有限公司
代理机构 - 代理人 -
地址 200333 上海市静安区延安西路376弄22号5楼
法律状态 -

摘要

摘要 本发明为了弥补现有汉语分词技术的不足,提出了一种实现智能联想的行业词语关联度分词方法。利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了属于此行业领域的语义词典完整的自动构建方法。建立分布式递归模型,将本地词库写入云端词库,检索行业文章并存数据库,用云端词库过滤出属于本行业的词汇,根据队列中消息读取云端数据,对数据进行去噪并分词,取出出现次数最多的N个词,或取出出现次数最多的一个词,统计单据数量和词语出现的次数。之后,计算词语在每张单据中出现的平均次数。最后,计算词语出现次数的标准差,从而实现快速、准确联想。