基于文本和图像相似度防止项目重复申报的方法

基本信息

申请号 CN202011047496.X 申请日 -
公开(公告)号 CN112131348A 公开(公告)日 2020-12-25
申请公布号 CN112131348A 申请公布日 2020-12-25
分类号 G06F16/33(2019.01)I 分类 计算;推算;计数;
发明人 罗益军;李建军;李代俊;罗艾;刘澜;李钢 申请(专利权)人 成都金税电子技术有限公司
代理机构 成都正煜知识产权代理事务所(普通合伙) 代理人 四川财经职业学院;成都金税电子技术有限公司
地址 610000四川省成都市龙泉驿区驿都大道西路4111号
法律状态 -

摘要

摘要 本发明公开了一种基于文本和图片相似度防止项目重复申报的方法,属于查重技术领域,解决现有技术中通过人工方式来判断项目是否存在重复申报的问题,其工作量大,效率低下,并且采用人工判断的方式,其主观性强,易造成判断的准确率低下的问题。本发明基于项目文档中的图片和文本摘要分别与数据库中的项目文档中的图片和文本摘要进行相似度对比,若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是。本发明用于防止项目重复申报。