源代码文件克隆邻接表合并检测方法

基本信息

申请号 CN201710140323.4 申请日 -
公开(公告)号 CN107066262A 公开(公告)日 2017-08-18
申请公布号 CN107066262A 申请公布日 2017-08-18
分类号 G06F9/44(2006.01)I;G06F11/36(2006.01)I 分类 计算;推算;计数;
发明人 罗峋;饶飞 申请(专利权)人 苏州棱镜七彩信息科技有限公司
代理机构 苏州唯亚智冠知识产权代理有限公司 代理人 苏州棱镜七彩信息科技有限公司
地址 215000 江苏省苏州市苏州工业园区苏州大道东381号商旅大厦6幢902室
法律状态 -

摘要

摘要 本发明涉及一种源代码文件克隆邻接表合并检测方法,对工程项目文件以文件为单位,对代码每行以固定行数进行扫描为粒度,用MD5构造指纹Chunk并建立指纹库。指纹库保存在MySQL数据库中,以指纹所在的开源项目id和Chunk的Hash值作为索引进行检测算法,能实现克隆0到3类检测。即:提出基于分布式索引的源代码文件克隆邻接表合并检测方案及算法。该检测算法的检测实现能在时间复杂度为O(nm),空间复杂度为O(nm)内检测出克隆的代码文件,实现海量检测。