提升逐篇归档的效率的人物重名消歧方法、系统、设备
基本信息
申请号 | CN202110421376.X | 申请日 | - |
公开(公告)号 | CN112835852B | 公开(公告)日 | 2021-08-17 |
申请公布号 | CN112835852B | 申请公布日 | 2021-08-17 |
分类号 | G06F16/11(2019.01)I;G06F16/31(2019.01)I;G06F16/35(2019.01)I;G06N20/00(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 杨万征;蔡超;程国艮 | 申请(专利权)人 | 中译语通科技股份有限公司 |
代理机构 | 北京万贝专利代理事务所(特殊普通合伙) | 代理人 | 马红 |
地址 | 100131北京市石景山区石景山路20号中铁建设大厦16层1601 | ||
法律状态 | - |
摘要
摘要 | 本发明属于同名消歧技术领域,公开了一种提升逐篇归档的效率的人物重名消歧方法、系统、设备,根据名称划分名称组;获取名称组对应的文本集;基于规则拆分文本集,划分文本组;计算文本组间的相似度;所述提升逐篇归档的效率的同名消歧系统包括:名称组划分模块、文本集获取模块、大组拆分模块、存储模块、训练集构建模块、模型训练及优化模块、子模型判别器构建模块、预测模块、ID选择器构建模块、ID选择器训练及优化模块、分类预测模块。本发明采用规则+模型的方式,提升模型整体的计算效率;以组为单位减少候选匹配次数,提升计算效率;使用多模型融合技术,每个子模型使用不同特征,提升模型的鲁棒性以及预测精度。 |
