基于后缀树的代码文件克隆检测方法

基本信息

申请号 CN201710140414.8 申请日 -
公开(公告)号 CN106990956B 公开(公告)日 2017-07-28
申请公布号 CN106990956B 申请公布日 2017-07-28
分类号 G06F8/75(2018.01)I 分类 计算;推算;计数;
发明人 罗峋;饶飞 申请(专利权)人 苏州棱镜七彩信息科技有限公司
代理机构 北京同辉知识产权代理事务所(普通合伙) 代理人 苏州棱镜七彩信息科技有限公司
地址 215000江苏省苏州市工业园区苏州大道东381号商旅大厦6幢902室
法律状态 -

摘要

摘要 本发明涉及一种基于后缀树的代码文件克隆检测方法,对工程项目文件构造后缀树,在线性时间内实现代码文件克隆检测。LP检测方案及算法是以计算机软件源代码文件内容为粒度,通过对代码文件进行词法分析过滤,并MD5哈希得到指纹值,构造指纹建立指纹库。指纹库保存在MySQL数据库中,以指纹所在的开源项目id作为索引。可以直接提取后缀树中被标记为克隆结果的节点,将这些节点直接保存到克隆结果数据表中。由此,能在线性时间内检测出克隆的代码文件,比直接按照指纹值进行检测有更高效率,实现海量检测。