一种基于LCS和TF-IDF的相似字符串确定方法及装置

基本信息

申请号 CN202011027205.0 申请日 -
公开(公告)号 CN112185573A 公开(公告)日 2021-01-05
申请公布号 CN112185573A 申请公布日 2021-01-05
分类号 G16H50/70(2018.01)I 分类 物理
发明人 马素芬;魏博;骆佳俊;许永超;李力行;凌少平 申请(专利权)人 志诺维思(北京)基因科技有限公司
代理机构 北京超凡宏宇专利代理事务所(特殊普通合伙) 代理人 志诺维思(北京)基因科技有限公司
地址 102200北京市昌平区沙河镇能源东路1号院1号楼3层309-3
法律状态 -

摘要

摘要 本申请提供了一种基于LCS和TF‑IDF的相似字符串确定方法及装置,其中,该方法包括:计算同义词字典中各同义词的TF‑IDF值;从同义词字典中查找待归一的字符串对应的标准写法信息;若未查找到,则计算该字符串与相应同义词的最长公共子序列长度和距离以及非公共子序列中包含的所有字符的TF‑IDF值总和;对相应同义词按照最长公共子序列长度降序排列得到第一排序结果,对第一排序结果按照最长公共子序列距离和TF‑IDF值总和的和升序排列得到第二排序结果,返回第二排序结果中第一个字符串对应的目标标准写法信息;基于待归一的字符串和目标标准写法信息,确定待归一的字符串的相似字符串,可对结构化数据进行归一推理,取得了较好的结果,有利于下一步数据分析、挖掘。