一种汉语兼语结构获取方法

基本信息

申请号 CN201510846489.9 申请日 -
公开(公告)号 CN106815188B 公开(公告)日 2020-02-18
申请公布号 CN106815188B 申请公布日 2020-02-18
分类号 G06F40/284 分类 计算;推算;计数;
发明人 符建辉;王卫明;曹阳 申请(专利权)人 中科国力(镇江)智能技术有限公司
代理机构 南京知识律师事务所 代理人 中科国力(镇江)智能技术有限公司;镇江诺尼基智能技术有限公司
地址 212009 江苏省镇江市高新技术产业开发园区经十二路668号
法律状态 -

摘要

摘要 本发明涉及一种汉语兼语结构获取方法,包括对原始训练语料库Corpus进行分词,形成分词语料库TCorpus;识别分词语料库TCorpus中的每条语句Si中动词;应用兼语模式对TCorpus中的语句进行分析,对满足兼语模式的语句形成候选兼语结构,并且置入待验证的兼语结构库SOBase中;验证候选兼语结构库SOBase,并输出最终结果SOBaseResult;本发明引入了兼语模式,可在不降低获取效果的前提下极大地控制兼语形式的复杂性。针对汉语构词和语句的复杂性,为确保兼语结构的准确性,本发明从“兼语结构搭配多样性”、“兼语结构搭配常见性”双重角度,对获得的兼语结构进行严格的验证。