对问句语料进行处理的方法、装置以及存储介质

基本信息

申请号 CN201911420583.2 申请日 -
公开(公告)号 CN113127611A 公开(公告)日 2021-07-16
申请公布号 CN113127611A 申请公布日 2021-07-16
分类号 G06F16/332(2019.01)I;G06F16/35(2019.01)I;G06F40/216(2020.01)I;G06F40/289(2020.01)I 分类 计算;推算;计数;
发明人 黄磊;杨春勇;靳丁南;权圣 申请(专利权)人 北京中关村科金技术有限公司
代理机构 北京万思博知识产权代理有限公司 代理人 刘冀
地址 100000北京市海淀区后屯南路26号4层5-03-2
法律状态 -

摘要

摘要 本申请公开了一种对问句语料进行处理的方法、装置以及存储介质。其中,该方法包括,通过对第一问句语料集合进行聚类操作,确定基于问句语料的多个问句类别,其中所述问句类别包含各自的根据问句语料的信息量确定的中心问句;根据第二问句语料集合中的问句语料与各个所述中心问句之间的相似度,确定所述第二问句语料集合中的问句语料的类别,并根据所述第二问句语料集合中的问句语料在所述多个问句类别的分布,确定各个所述中心问句的频次;以及从多个问句类别中确定中心问句的频次大于预设阈值的问句类别。