一种中文文档事件抽取的方法和系统
基本信息
申请号 | CN202011315453.5 | 申请日 | - |
公开(公告)号 | CN112231447A | 公开(公告)日 | 2021-01-15 |
申请公布号 | CN112231447A | 申请公布日 | 2021-01-15 |
分类号 | G06F16/33(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 王雷 | 申请(专利权)人 | 杭州投知信息技术有限公司 |
代理机构 | 北京棘龙知识产权代理有限公司 | 代理人 | 杭州投知信息技术有限公司 |
地址 | 310000浙江省杭州市余杭区五常街道文一西路998号5幢602室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种中文文档事件抽取的方法和系统,所述方法包括:检测所述文档的实体和实体类型;检测所述文档中句子的事件类型;根据所述事件类型,获得所述事件类型所需要的论元角色及其重要度;根据所述论元角色的重要度,获得每个句子的重要度;基于所述句子的重要度,检测所述文档的中心句;基于检测到的实体、事件类型和中心句,抽取实体作为论元,并获得所述论元的论元角色。通过定义论元角色对事件类型的重要度,并检测中心句,根据句子实体和事件类型与中心句的关系,获取论元和论元角色;不依赖于触发词,在缺少触发词时,也可以正确认识事件类型,以及论元和论元角色,从而提高召回率;同时,减轻了在训练集中标注触发词的工作量。 |
