大规模知识图谱本体自动抽取方法、终端设备及存储介质

基本信息

申请号 CN202110380611.3 申请日 -
公开(公告)号 CN113127645A 公开(公告)日 2021-07-16
申请公布号 CN113127645A 申请公布日 2021-07-16
分类号 G06F16/36(2019.01)I;G06F16/35(2019.01)I;G06F40/295(2020.01)I;G06K9/62(2006.01)I 分类 计算;推算;计数;
发明人 洪万福;张林娜 申请(专利权)人 厦门渊亭信息科技有限公司
代理机构 厦门市精诚新创知识产权代理有限公司 代理人 何家富
地址 361000福建省厦门市软件园二期望海路61号801单元N8-01
法律状态 -

摘要

摘要 本发明涉及大规模知识图谱本体自动抽取方法、终端设备及存储介质,该方法中包括:S1:从知识图谱中获取实体;S2:采用规则匹配算法对提取的实体进行初步分类;S3:采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别,并确认识别到的命名实体的类型;S4:针对步骤S3中命名实体识别后的剩余实体,采用聚类算法进行分类;S5:将步骤S2、S3和S4的分类结果进行合并与调整,得到最终的分类结果。本发明创新性地融合多种技术手段,有效的实现了工业界大规模知识图谱的本体自动抽取工作,在无任何人工标注数据的情况下,仍可实现对复杂、量级大、脏数据多的知识图谱进行实体的本体抽取。