一种媒体行业知识图谱的构建方法

基本信息

申请号 CN202110429931.3 申请日 -
公开(公告)号 CN112948510A 公开(公告)日 2021-06-11
申请公布号 CN112948510A 申请公布日 2021-06-11
分类号 G06F16/28;G06F40/295 分类 计算;推算;计数;
发明人 孙伟芳;朱立松;黄建杰;张勇 申请(专利权)人 央视国际网络无锡有限公司
代理机构 - 代理人 -
地址 214000 江苏省无锡市新区震泽路18号无锡(国家)软件园金牛座D栋3、5、6楼
法律状态 -

摘要

摘要 本发明是媒体行业知识图谱的构建方法,包括:1)对媒体数据进行预处理,包括中文单句拆分和组合;2)采用自然语言处理方法,挖掘出有效实体和关系,按照SPO三元组的模式进行三元组建模;3)将建模的三元组存入媒体知识图谱中;4)基于挖掘出来的实体,从现有通用知识图谱中匹配抓取新闻娱乐领域数据,填补到媒体知识图谱中。本发明的优点:(1)本发明构建的媒体知识图谱的数据更丰富且更符合媒体行业的业务需求;(2)将NLP联合提取关系的模型引入到本发明媒体知识图谱的构件中,大大简化了工作的杂度,模型性能优;(3)构建的媒体知识图谱作为基础数据,可为媒体行业及企业发展提供一个大数据分析平台,数据更全面,关系更清晰。