基于音节驱动的音译实体名的计算机自动识别方法

基本信息

申请号 CN200710166174.5 申请日 -
公开(公告)号 CN101145166A 公开(公告)日 2008-03-19
申请公布号 CN101145166A 申请公布日 2008-03-19
分类号 G06F17/30(2006.01) 分类 计算;推算;计数;
发明人 陈沛;郭永福;许欢庆 申请(专利权)人 北京中搜在线软件有限公司
代理机构 - 代理人 -
地址 100088北京市海淀区西直门北大街42号华星大厦A座13层
法律状态 -

摘要

摘要 一种基于音节驱动的音译实体名的计算机自动识别方法,包括用于计算机检索的音译名,先获原始可信音译名库;再构建用于识别音译实体名的音节信息库;组成大容量的音译名语料库;以原始可信音译名库的音译名为基础统计识别音译名出现的错误类别,修正该音译名语料库,利用该音译名语料库对音译实体名进行自动识别。本发明充分利于音译名用字的构成规律,对计算机自动识别的对比音译名语料库进行渐进式整理,分析提高了识别精度,并通过音节的统计学习得到计算机识别精度更高的音译名资料库,从而建立大型的高精准度音译名资料库并提高搜索中音译名识别精度的,大大降低的音译名实体搜索工程中错误的触发几率和边界识别错误的几率。