一种用于数据集的数据使用质量的评估方法
基本信息
申请号 | CN201610389829.4 | 申请日 | - |
公开(公告)号 | CN105975631A | 公开(公告)日 | 2016-09-28 |
申请公布号 | CN105975631A | 申请公布日 | 2016-09-28 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 阮彤;甘似禹;叶琪;李阳;赵亮 | 申请(专利权)人 | 上海亿通国际股份有限公司 |
代理机构 | - | 代理人 | - |
地址 | 200237 上海市徐汇区梅陇路130号 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种用于数据集的数据使用质量的评估方法,包括:获取在数据集上回答自然语言问题时的问题评测集;根据所述问题评测集的问题进行总结和归纳,形成多个问题模板;以及根据所述问题模板和使用质量度量,将最终的查询结果与正确答案进行对比,计算出查询结果的精度、召回率和综合信息性以便用户评估所述数据集的数据使用质量。相比于现有技术,本发明将数据集应用于问答系统时的问题作为使用场景,每个查询问题对应于一个使用场景,并通过可查询性度量在数据集上构建查询的难以程度,以及通过信息性度量特定的使用场景中的查询结果所包含的信息量,从而可操作地评估数据集的数据使用质量。 |
