一种汉语新动词识别系统和方法
基本信息
申请号 | CN201510846963.8 | 申请日 | - |
公开(公告)号 | CN106815189A | 公开(公告)日 | 2017-06-09 |
申请公布号 | CN106815189A | 申请公布日 | 2017-06-09 |
分类号 | G06F17/27(2006.01)I;G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 王卫明;符建辉 | 申请(专利权)人 | 中科国力(镇江)智能技术有限公司 |
代理机构 | 南京知识律师事务所 | 代理人 | 镇江诺尼基智能技术有限公司;中科国力(镇江)智能技术有限公司 |
地址 | 212009 江苏省镇江市丁卯经十二路468号双子研发楼北楼18楼 | ||
法律状态 | - |
摘要
摘要 | 本发明一种汉语新动词识别系统和方法,包括对原始训练语料库CNCorpus进行分词,形成分词语料库TCNCorpus;识别分词语料库TCNCorpus中的可能的新动词,形成结果集合Tmp_Verb;验证集合Tmp_Verb中的新动词,形成结果集合VerbResult;输出新动词集合VerbResult.本发明提出了一种利用汉语种子词典中的词语的信息,对从汉语语料中获得新动词进行识别。在经过160GB的纯文本语料的测试验证后,本发明的系统获得了41012个新的汉语动词。经过准确性分析,结果显示96.9%的新动词为正确的汉语动词。 |
