消除新闻中行业词歧义的方法、装置、设备和存储介质
基本信息
申请号 | CN202110590171.4 | 申请日 | - |
公开(公告)号 | CN113407717A | 公开(公告)日 | 2021-09-17 |
申请公布号 | CN113407717A | 申请公布日 | 2021-09-17 |
分类号 | G06F16/35(2019.01)I;G06F16/36(2019.01)I;G06F40/216(2020.01)I;G06F40/247(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 贾宁 | 申请(专利权)人 | 数库(上海)科技有限公司 |
代理机构 | 上海十蕙一兰知识产权代理有限公司 | 代理人 | 刘秋兰 |
地址 | 201112上海市闵行区陈行路2388号9号楼8层801室 | ||
法律状态 | - |
摘要
摘要 | 本发明属于数据处理技术领域,具体涉及一种消除新闻中行业词歧义的方法、装置、设备和存储介质。其中方法包括:获取新闻,对新闻进行行业分类,得到行业标签分类结果;对行业标签分类结果进行标签共现检验,若检验未通过,则将全部的行业标签加入歧义判别列表中,若检验通过,则将存在歧义词集合中的特征词对应的行业标签加入歧义判别列表中,若不存在,则直接输出结果;通过预设的歧义判别模型对歧义判别列表中的行业标签进行判别,得到歧义判别结果,根据歧义判别结果进行输出。本发明摆脱了对歧义词表或知识图谱的重度依赖,可以自动发现歧义词表之外的歧义词带来的错误,大大减少了开发成本。 |
