基于领域本体结合机器学习模型的汉语文本共指消解方法

基本信息

申请号 CN200810246639.2 申请日 -
公开(公告)号 CN101770453A 公开(公告)日 2010-07-07
申请公布号 CN101770453A 申请公布日 2010-07-07
分类号 G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 黄河燕 申请(专利权)人 华建机器翻译有限公司
代理机构 北京北新智诚知识产权代理有限公司 代理人 华建机器翻译有限公司
地址 100083 北京市海淀区北四环中路257号
法律状态 -

摘要

摘要 本发明公开了一种基于领域本体结合机器学习模型的汉语文本共指消解方法,包括如下步骤:(1)构建完成领域本体;(2)输入待处理的汉语文本;(3)对步骤(2)中的汉语文本进行分词与词性标注处理;(4)将汉语文本中的命名实体分为常规命名实体和领域命名实体两类,利用步骤(1)中构建的领域本体通过形式化实例获取词性规则模板,结合CRF模型,针对领域命名实体进行识别处理;(5)针对领域命名实体之外的普通名词短语进行归并处理;(6)利用步骤(1)中构建的领域本体,获取语义类特征,结合机器学习模型,针对领域命名实体及普通名词短语进行共指消解处理。本汉语文本共指消解方法对人工成本要求较低,能够在短时间内获取高准确率的共指消解处理结果。