一种基于大规模文献数据的作者姓名同一性判断方法

基本信息

申请号 CN202110954858.1 申请日 -
公开(公告)号 CN113688257A 公开(公告)日 2021-11-23
申请公布号 CN113688257A 申请公布日 2021-11-23
分类号 G06F16/38;G06F16/35;G06F16/26 分类 计算;推算;计数;
发明人 邰伟鹏;胡涛;赵佳俊;黄超;李文婷;李伟 申请(专利权)人 安徽工大信息技术有限公司
代理机构 安徽知问律师事务所 代理人 王亚军
地址 243000 安徽省马鞍山市霍里山大道北段698号马鞍山软件园2栋801室
法律状态 -

摘要

摘要 本发明公开了一种基于大规模文献数据的作者姓名同一性判断方法,属于同名消歧技术领域。包括以下步骤:读取文献数据信息;分组排序,得到含有相同作者名的多个数据块;数据处理为结构化的数据;再分组,每一数据块按照文献id分组得到多个数据小块;数据小块间作者名进行同一性判断,依据作者所属的机构名,循环的在数据小块之间,两两不断取交集,若交集不为空则取并集,使交集不为空的数据小块中包含的记录数不断扩大,直到不再变化为止;最终以相同id标识的为同一作者。本发明克服了现有技术中,由于忽略了文献间内在的关联关系和大量数据造成的混杂度,无需人工标注信息,将数据经过一层层分组排序后化繁为简,提高了同名区分的效率与准确率。