一种基于统计机器学习方法的分词字典数据采集方法

基本信息

申请号 CN201610329755.5 申请日 -
公开(公告)号 CN106055560A 公开(公告)日 2016-10-26
申请公布号 CN106055560A 申请公布日 2016-10-26
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 姬江涛;闵新力;薛君志;马伟华;秦玉林;张小坤;张国军;施俊士;张余;程洁羚;周江;张达宁 申请(专利权)人 上海申腾信息技术有限公司
代理机构 上海三方专利事务所 代理人 上海申腾信息技术有限公司
地址 200040 上海市静安区愚园路546号
法律状态 -

摘要

摘要 本发明涉及数据处理基础领域,具体来说是一种基于统计机器学习方法的分词字典数据采集方法,利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题,进行概念的获取及处理,从而对采集信息或数据进行加工,建立信息数据库和索引数据库,形成用户想要的数据内容,对用户提出的各种检索做出响应,为提供用户所需的信息或相关指针,从而提高了信息检索的准确率和准确率。