基于后缀树的代码文件克隆检测方法
基本信息
申请号 | CN201710140414.8 | 申请日 | - |
公开(公告)号 | CN106990956B | 公开(公告)日 | 2017-07-28 |
申请公布号 | CN106990956B | 申请公布日 | 2017-07-28 |
分类号 | G06F8/75(2018.01)I | 分类 | 计算;推算;计数; |
发明人 | 罗峋;饶飞 | 申请(专利权)人 | 苏州棱镜七彩信息科技有限公司 |
代理机构 | 北京同辉知识产权代理事务所(普通合伙) | 代理人 | 苏州棱镜七彩信息科技有限公司 |
地址 | 215000江苏省苏州市工业园区苏州大道东381号商旅大厦6幢902室 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种基于后缀树的代码文件克隆检测方法,对工程项目文件构造后缀树,在线性时间内实现代码文件克隆检测。LP检测方案及算法是以计算机软件源代码文件内容为粒度,通过对代码文件进行词法分析过滤,并MD5哈希得到指纹值,构造指纹建立指纹库。指纹库保存在MySQL数据库中,以指纹所在的开源项目id作为索引。可以直接提取后缀树中被标记为克隆结果的节点,将这些节点直接保存到克隆结果数据表中。由此,能在线性时间内检测出克隆的代码文件,比直接按照指纹值进行检测有更高效率,实现海量检测。 |
