样本数据处理的方法、装置、计算机程序产品和存储介质
基本信息
申请号 | CN202111417183.3 | 申请日 | - |
公开(公告)号 | CN114219012A | 公开(公告)日 | 2022-03-22 |
申请公布号 | CN114219012A | 申请公布日 | 2022-03-22 |
分类号 | G06K9/62(2022.01)I;G06F40/295(2020.01)I;G06F40/211(2020.01)I;G06F40/289(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 李东超;崔鸣 | 申请(专利权)人 | 北京房江湖科技有限公司 |
代理机构 | 北京思源智汇知识产权代理有限公司 | 代理人 | 王晓多 |
地址 | 101300北京市顺义区杨镇二街村农场路62号24室 | ||
法律状态 | - |
摘要
摘要 | 本公开实施例公开了一种样本数据处理的方法、装置、计算机程序产品和存储介质,其中,方法包括:获取待处理的文本集;确定样本文本的句法结构以及句法结构在文本集中的数量占比;将样本文本输入命名实体识别模型,确定样本文本中的字的边界标签及边界标签的置信度;基于边界标签确定样本文本中包括的实体,并确定实体的F值以及类型标签;确定实体的类型标签在文本集中的数量占比;基于实体的类型标签在文本集中的数量占比、实体的F值以及句法结构在文本集中的数量占比,确定样本文本的支持度;基于边界标签的置信度,确定样本文本的混淆度;基于样本文本的支持度、混淆度、预设的支持度阈值和混淆度阈值,从文本集中获取目标样本文本。 |
