一种基于多源异构特征的文本数据集质量评估方法

基本信息

申请号 CN202110548575.7 申请日 -
公开(公告)号 CN112989827A 公开(公告)日 2021-06-18
申请公布号 CN112989827A 申请公布日 2021-06-18
分类号 G06F40/289;G06F40/216;G06F40/211;G06F40/30 分类 计算;推算;计数;
发明人 章海锋;刘晓雷;丁仙峰;于广郢 申请(专利权)人 江苏数兑科技有限公司
代理机构 北京细软智谷知识产权代理有限责任公司 代理人 付登云
地址 210000 江苏省南京市秦淮区永智路5号南京白下高新技术产业园区五号楼E栋101-88室
法律状态 -

摘要

摘要 本发明公开了一种基于多源异构特征的文本数据集质量评估方法,属于文本数据质量评估领域;在获取待评估的文本数据集后,通过识别文本数据集的数据类型,得到待评估文本数据集是结构化数据还是半结构化数据以及非结构化数据,并根据文本数据集的数据类型计算文本数据集的指标。最后根据指标生成文本数据集的质量评估报告。由于不同数据类型采用的指标不同,因此针对不同的数据类型可以给出精确的质量评估报告。