一种汉语兼语结构获取方法
基本信息
申请号 | CN201510846489.9 | 申请日 | - |
公开(公告)号 | CN106815188B | 公开(公告)日 | 2020-02-18 |
申请公布号 | CN106815188B | 申请公布日 | 2020-02-18 |
分类号 | G06F40/284 | 分类 | 计算;推算;计数; |
发明人 | 符建辉;王卫明;曹阳 | 申请(专利权)人 | 中科国力(镇江)智能技术有限公司 |
代理机构 | 南京知识律师事务所 | 代理人 | 中科国力(镇江)智能技术有限公司;镇江诺尼基智能技术有限公司 |
地址 | 212009 江苏省镇江市高新技术产业开发园区经十二路668号 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种汉语兼语结构获取方法,包括对原始训练语料库Corpus进行分词,形成分词语料库TCorpus;识别分词语料库TCorpus中的每条语句Si中动词;应用兼语模式对TCorpus中的语句进行分析,对满足兼语模式的语句形成候选兼语结构,并且置入待验证的兼语结构库SOBase中;验证候选兼语结构库SOBase,并输出最终结果SOBaseResult;本发明引入了兼语模式,可在不降低获取效果的前提下极大地控制兼语形式的复杂性。针对汉语构词和语句的复杂性,为确保兼语结构的准确性,本发明从“兼语结构搭配多样性”、“兼语结构搭配常见性”双重角度,对获得的兼语结构进行严格的验证。 |
