维吾尔语词性标注方法

基本信息

申请号 CN201210579945.4 申请日 -
公开(公告)号 CN103902525B 公开(公告)日 2016-09-21
申请公布号 CN103902525B 申请公布日 2016-09-21
分类号 G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 尼加提·纳吉米;买合木提·买买提;帕肉克·司地克;马斌 申请(专利权)人 新疆电力信息通信有限责任公司
代理机构 乌鲁木齐新科联知识产权代理有限公司 代理人 国网新疆电力公司信息通信公司;国家电网公司
地址 830000 新疆维吾尔自治区乌鲁木齐市高新区长春南路1118号1栋12层
法律状态 -

摘要

摘要 本发明公开了维吾尔语词性标注方法,1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库;2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型;3.构建正确标注规则库及无歧义词性标记词典和专有名词词典,构建基于规则和词典的一级词性标注纠正算法,进一步提高一级词性标注的准确率;4.提供基于词干提取的词性标注方法,进一步增加标注单词的覆盖率;5.提供二级词性标注统计模型,增加标注单词的覆盖率和成功率;6.在二级标注中通过无歧义词词典和专有名词词典标注,再经过词干提取标注及统计模型标注,准确率极高的实现二级词性标注。本发明较高效率地解决了维吾尔语的词性标注问题。