基于引文网络的论文文本相似性的检测方法

基本信息

申请号 CN201910701668.1 申请日 -
公开(公告)号 CN110489745A 公开(公告)日 2019-11-22
申请公布号 CN110489745A 申请公布日 2019-11-22
分类号 G06F17/27(2006.01); G06K9/62(2006.01) 分类 计算;推算;计数;
发明人 武山山; 王继民; 罗鹏程; 赵常煜 申请(专利权)人 重庆泛语科技有限公司
代理机构 北京万象新悦知识产权代理有限公司 代理人 贾晓玲
地址 100871 北京市海淀区颐和园路5号
法律状态 -

摘要

摘要 本发明提供一种基于引文网络的论文文本相似性的检测方法,该方法在引文网络的基础上提出了基于书目耦合与语义指纹相结合的候选文档集过滤,在候选文档集上,基于词建立句子级别的倒排索引,进行相似句子检测与观点片段检测,生成相似文本,计算得到待检文档的复制比,从而判断出论文文本的相似性。本发明基于词向量的句子比对与观点检测,将词向量与同义词引入到文本相似性计算中,提升了句子相似性的计算效果且具有计算速度快的优点,能够检测出论文文本中可能涉及观点抄袭的文本片段。采用本发明不仅速度快,而且对词语替换、句子重组等形式的句子相似性检测具有好的效果。