一种具有多种子模块信息的中文词向量生成方法

基本信息

申请号 CN201911172979.X 申请日 -
公开(公告)号 CN111160020A 公开(公告)日 2020-05-15
申请公布号 CN111160020A 申请公布日 2020-05-15
分类号 G06F40/284;G06F40/211;G06N3/04;G06N3/08 分类 计算;推算;计数;
发明人 朱鹏;程大伟;杨芳洲;罗轶凤;钱卫宁;周傲英 申请(专利权)人 上海瞰点科技有限责任公司
代理机构 上海蓝迪专利商标事务所(普通合伙) 代理人 上海瞰点科技有限责任公司;华东师范大学
地址 200241 上海市闵行区东川路500号
法律状态 -

摘要

摘要 本发明提出了一种具有多种子模块信息的中文词向量生成方法,其特点是采用包括单词、字符、部首、成分、字形和拼音的六种子模块信息与注意力机制融合方法,以学习改进的汉字嵌入表示形式,将其融合到具有适当权重的词嵌入中,生成高精度的词向量。本发明与现有技术相比具有根据注意机制为每种子模块信息分配适当的权重,以减少语义含义较少的子模块的权重,提高子模块的权重,具有更丰富语义含义的模块,改善了中文单词嵌入,实现了可观的性能提升。