一种基于字符级局部敏感哈希法进行同源性检测的方法
基本信息
申请号 | CN202111294922.4 | 申请日 | - |
公开(公告)号 | CN113946345A | 公开(公告)日 | 2022-01-18 |
申请公布号 | CN113946345A | 申请公布日 | 2022-01-18 |
分类号 | G06F8/41(2018.01)I;G06F16/2458(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 常剑秋;于微;郑永震;任望;王强;王博 | 申请(专利权)人 | 北京鸿渐科技有限公司 |
代理机构 | 北京东方盛凡知识产权代理事务所(普通合伙) | 代理人 | 李娜 |
地址 | 100084北京市海淀区农大南路1号硅谷亮城2B-71A | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种基于字符级局部敏感哈希法进行同源性检测的方法,包括步骤一、筛选符合的后缀名源代码文件并除去文本和图片,步骤二、源代码预处理及滑窗处理并通过映射和进制转换得到最终指纹,步骤三、根据源代码计算出的指纹选择匹配同源文件,步骤四、查询结果后进行排序并选出最终选定版本;本发明从字符级直接对输入的字符进行滑窗处理,粒度更细,准确性更高,通过将较长的源代码转换为较短的指纹,不仅可以解决同源检测中的相似性问题,而且漏报率大大降低。 |
