汉字混淆集生成方法及装置和计算机可读存储介质

基本信息

申请号 CN202111281258.X 申请日 -
公开(公告)号 CN114091439A 公开(公告)日 2022-02-25
申请公布号 CN114091439A 申请公布日 2022-02-25
分类号 G06F40/263(2020.01)I;G06F40/284(2020.01)I;G06F40/289(2020.01)I;G06N20/00(2019.01)I 分类 计算;推算;计数;
发明人 苏萌;刘译璟;易显维;肖伟崎;高体伟;左云鹏 申请(专利权)人 北京百分点科技集团股份有限公司
代理机构 北京国昊天诚知识产权代理有限公司 代理人 王思超
地址 100080北京市海淀区建材中路27号14幢一层101层
法律状态 -

摘要

摘要 本申请公开的汉字混淆集生成方法例如包括:对汉字集合中的任意两个汉字进行分别组对得到多个汉字对;构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测,得到所述多个汉字对的正例汉字混淆对;以及根据所述正例汉字混淆对生成汉字混淆集。将汉字对的字形混淆特征和拼音混淆特征统一在同一个生成方法里,通过机器学习有监督地学习上述混淆特征以预测输入汉字对的混淆情况,从而生成了一个准确率更高且更合理的混淆集。