基于加权递归自编码器的快速代码克隆检测方法及装置

基本信息

申请号 CN202011329523.2 申请日 -
公开(公告)号 CN112433756B 公开(公告)日 2021-09-07
申请公布号 CN112433756B 申请公布日 2021-09-07
分类号 G06F8/75;G06F16/901;G06F40/284;G06F40/30;G06K9/62 分类 计算;推算;计数;
发明人 刘伟;王嬴超;李晓伟;曾杰;杨洋;李春静;刘金松;吕方雷 申请(专利权)人 北京京航计算通讯研究所
代理机构 北京天达知识产权代理事务所(普通合伙) 代理人 胡时冶
地址 100074 北京市丰台区云岗北里西区1号院
法律状态 -

摘要

摘要 本发明涉及一种基于加权递归自编码器的快速代码克隆检测方法及装置,属于代码克隆技术领域,解决了现有的代码克隆技术检测精度较差且效率较低的问题。方法包括:获取待检测代码数据集,对待检测代码数据集进行预处理,得到待检测代码数据集中每一代码对应的二叉树;基于二叉树和加权递归自编码器获得待检测代码数据集中每一代码对应的最终向量,并基于每一代码对应的最终向量得到最终向量集合;基于最终向量集合构建导航展开图,并根据导航展开图对最终向量集合中的任意两个最终向量进行检测,得到代码克隆对。实现了代码克隆对的快速检测,提高了检测效率和精度。