多音字处理方法及装置

基本信息

申请号 CN202110528205.7 申请日 -
公开(公告)号 CN113268989A 公开(公告)日 2021-08-17
申请公布号 CN113268989A 申请公布日 2021-08-17
分类号 G06F40/30(2020.01)I;G06F40/211(2020.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G06N5/04(2006.01)I 分类 计算;推算;计数;
发明人 张文博;李长亮;郭馨泽 申请(专利权)人 北京金山数字娱乐科技有限公司
代理机构 北京智信禾专利代理有限公司 代理人 李晓庆
地址 100085北京市海淀区西二旗中路33号院5号楼11层002号
法律状态 -

摘要

摘要 本申请提供的所述多音字处理方法及装置,其中,所述方法包括基于语言模型以及多音字消歧模型的双向长短期记忆网络,获得包含多音字的中文语句的语义上下文向量;对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述中文语句中多音字的词性向量;基于所述中文语句中的多音字以及所述词性向量,确定所述中文语句的编码向量;将所述语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音。具体的,所述多音字处理方法在包含多音字的中文语句的信息编码阶段引入语言模型,并引入中文语句中的多音字前后词的词性信息,以提高多音字消除歧义任务中多音字消歧模型对该中文语句中多音字的读音的预测准确性。