提升逐篇归档的效率的人物重名消歧方法、系统、设备

基本信息

申请号 CN202110421376.X 申请日 -
公开(公告)号 CN112835852B 公开(公告)日 2021-08-17
申请公布号 CN112835852B 申请公布日 2021-08-17
分类号 G06F16/11(2019.01)I;G06F16/31(2019.01)I;G06F16/35(2019.01)I;G06N20/00(2019.01)I 分类 计算;推算;计数;
发明人 杨万征;蔡超;程国艮 申请(专利权)人 中译语通科技股份有限公司
代理机构 北京万贝专利代理事务所(特殊普通合伙) 代理人 马红
地址 100131北京市石景山区石景山路20号中铁建设大厦16层1601
法律状态 -

摘要

摘要 本发明属于同名消歧技术领域,公开了一种提升逐篇归档的效率的人物重名消歧方法、系统、设备,根据名称划分名称组;获取名称组对应的文本集;基于规则拆分文本集,划分文本组;计算文本组间的相似度;所述提升逐篇归档的效率的同名消歧系统包括:名称组划分模块、文本集获取模块、大组拆分模块、存储模块、训练集构建模块、模型训练及优化模块、子模型判别器构建模块、预测模块、ID选择器构建模块、ID选择器训练及优化模块、分类预测模块。本发明采用规则+模型的方式,提升模型整体的计算效率;以组为单位减少候选匹配次数,提升计算效率;使用多模型融合技术,每个子模型使用不同特征,提升模型的鲁棒性以及预测精度。