一种基于电力信息系统代码文件的相似度检测方法及系统

基本信息

申请号 CN201910593863.7 申请日 -
公开(公告)号 CN110471835B 公开(公告)日 2022-07-19
申请公布号 CN110471835B 申请公布日 2022-07-19
分类号 G06F11/36(2006.01)I;G06F40/194(2020.01)I;G06F40/284(2020.01)I;G06F40/30(2020.01)I;G06K9/62(2022.01)I 分类 计算;推算;计数;
发明人 钱琳;俞俊;朱广新;庞恒茂;任晓龙;胡鑫;许明杰;王琳;梅竹;陈海洋 申请(专利权)人 国电南瑞科技股份有限公司
代理机构 南京苏高专利商标事务所(普通合伙) 代理人 -
地址 211106江苏省南京市江宁区诚信大道19号
法律状态 -

摘要

摘要 本发明公开了一种基于电力信息系统代码文件的相似度检测方法及系统,包括:获取需要判别相似度的第一代码文件和第二代码文件,预处理后分别得到第一文本和第二文本;根据单词的TF‑IDF值得到所述文本语义词向量,从所述第一文本和第二文本的函数调用入口开始,分别寻找所述第一文本和第二文本的函数调用树结构,并计算得到第一文本结构向量和第二文本结构向量;通过文本语义词向量计算中间语义词向量,将所述第一文本结构向量和第二文本结构向量取并集后,计算第一中间结构向量和第二中间结构向量;进而得到所述第一文本和第二文本的相似度。本发明首先采用预处理函数对代码文件进行代码精简,提高检测效率,降低检测错误率。