一种基于精化单元格聚类的电子表格缺陷检测方法

基本信息

申请号 CN201910597185.1 申请日 -
公开(公告)号 CN110502731B 公开(公告)日 2021-04-27
申请公布号 CN110502731B 申请公布日 2021-04-27
分类号 G06F40/174;G06K9/62 分类 计算;推算;计数;
发明人 许畅;李达;王慧妍;马晓星 申请(专利权)人 山东中创软件工程股份有限公司
代理机构 南京钟山专利代理有限公司 代理人 上官凤栖
地址 250014 山东省济南市千佛山东路41-1号
法律状态 -

摘要

摘要 一种基于精化单元格聚类的电子表格缺陷检测方法,包括如下步骤:一、利用公式单元格生成种子类:提取公式单元格的强特征,根据强特征相似度进行初步的单元格聚类;二、对步骤一之后的剩余单元格进行聚类:提取单元格的弱特征,根据弱特征相似度将剩余单元格添加到合适的种子类中,形成泛化类;三、精化步骤二中生成的泛化类:利用有效性属性对泛化类进行精化处理,形成精化类;四、定位精化类中的有缺陷的单元格:利用离群点检测技术,标记精化类中的离群点为有缺陷的单元格。本发明能够弥补电子表格缺陷检测技术的不足,利用两阶段的单元格聚类技术,提高聚类的召回率,并利用有效性属性来提高聚类的精度,从而提升电子表格缺陷检测的效果。