一种用于数据集的数据使用质量的评估方法

基本信息

申请号 CN201610389829.4 申请日 -
公开(公告)号 CN105975631A 公开(公告)日 2016-09-28
申请公布号 CN105975631A 申请公布日 2016-09-28
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 阮彤;甘似禹;叶琪;李阳;赵亮 申请(专利权)人 上海亿通国际股份有限公司
代理机构 - 代理人 -
地址 200237 上海市徐汇区梅陇路130号
法律状态 -

摘要

摘要 本发明提供了一种用于数据集的数据使用质量的评估方法,包括:获取在数据集上回答自然语言问题时的问题评测集;根据所述问题评测集的问题进行总结和归纳,形成多个问题模板;以及根据所述问题模板和使用质量度量,将最终的查询结果与正确答案进行对比,计算出查询结果的精度、召回率和综合信息性以便用户评估所述数据集的数据使用质量。相比于现有技术,本发明将数据集应用于问答系统时的问题作为使用场景,每个查询问题对应于一个使用场景,并通过可查询性度量在数据集上构建查询的难以程度,以及通过信息性度量特定的使用场景中的查询结果所包含的信息量,从而可操作地评估数据集的数据使用质量。