一种基于统计机器学习方法的分词字典数据采集方法
基本信息
申请号 | CN201610329755.5 | 申请日 | - |
公开(公告)号 | CN106055560A | 公开(公告)日 | 2016-10-26 |
申请公布号 | CN106055560A | 申请公布日 | 2016-10-26 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 姬江涛;闵新力;薛君志;马伟华;秦玉林;张小坤;张国军;施俊士;张余;程洁羚;周江;张达宁 | 申请(专利权)人 | 上海申腾信息技术有限公司 |
代理机构 | 上海三方专利事务所 | 代理人 | 上海申腾信息技术有限公司 |
地址 | 200040 上海市静安区愚园路546号 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及数据处理基础领域,具体来说是一种基于统计机器学习方法的分词字典数据采集方法,利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题,进行概念的获取及处理,从而对采集信息或数据进行加工,建立信息数据库和索引数据库,形成用户想要的数据内容,对用户提出的各种检索做出响应,为提供用户所需的信息或相关指针,从而提高了信息检索的准确率和准确率。 |
