代码相似性检测方法、装置以及存储介质

基本信息

申请号 CN202110198641.2 申请日 -
公开(公告)号 CN112579155B 公开(公告)日 2021-05-18
申请公布号 CN112579155B 申请公布日 2021-05-18
分类号 G06F8/75 分类 计算;推算;计数;
发明人 高庆;李玫;张世琨;马森 申请(专利权)人 北京北大软件工程股份有限公司
代理机构 北京华创智道知识产权代理事务所(普通合伙) 代理人 彭随丽
地址 100080 北京市海淀区北四环西路67号中关村国际创新大厦1105
法律状态 -

摘要

摘要 本发明实施例涉及软件检测领域,公开了一种代码相似性检测方法,主要分为三个阶段,预处理阶段对海量源代码文件进行预处理和特征提取工作,输出相似哈希指纹值;指纹索引阶段则根据上一阶段的结果,采用分段索引策略将指纹切分并重组后存入相似哈希指纹库,建立分段索引便于快速匹配;相似匹配阶段则在对待测工程文件进行处理后生成相似哈希值,根据所述待测工程文件的相似哈希值从所述相似哈希指纹库中分段检索出溯源检测的结果;本发明能够从不同语言常见行的消除这一角度出发来降低行覆盖问题对结果的影响。