一种基于句子检索模式的属性抽取方法

基本信息

申请号 CN202010025572.0 申请日 -
公开(公告)号 CN111241827B 公开(公告)日 2022-05-20
申请公布号 CN111241827B 申请公布日 2022-05-20
分类号 G06F40/289(2020.01)I;G06F40/211(2020.01)I;G06F40/242(2020.01)I;G06F16/31(2019.01)I;G06F16/33(2019.01)I 分类 计算;推算;计数;
发明人 乔驰;段飞虎;印东敏;陈锋涛;蔡郧;冯自强;李云鹏;戴铁成;张宏伟 申请(专利权)人 同方知网数字出版技术股份有限公司
代理机构 北京天奇智新知识产权代理有限公司 代理人 -
地址 100084北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室
法律状态 -

摘要

摘要 本发明公开了一种基于句子检索模式的属性抽取方法,该包括:将语料进行预处理,把需要的语料数据导入到语料库;从语料库中或词典或概念模型中的语料数据中抽取语句,并将所需语句组成样本集;采用HanLP句法依存分析器对抽取的语句样本集进行分词和词性标注;采用过滤规则对词性标注的结果集进行过滤,并产生三元属性即:实体属性、关系属性以及实体与实体之间的属性,并得到每一句话的三元组属性集合;对三元组属性集合进行聚合,并将聚合得到的属性集合保存到数据库。本发明提高了关系抽取的效率,减少了人力物力等资源的浪费,解决了现有关系抽取技术的不足之处。