一种利用正交变换计算汉语词向量的方法

基本信息

申请号 CN202110941722.7 申请日 -
公开(公告)号 CN113627175A 公开(公告)日 2021-11-09
申请公布号 CN113627175A 申请公布日 2021-11-09
分类号 G06F40/284(2020.01)I;G06F40/216(2020.01)I;G06F17/16(2006.01)I;G06F17/18(2006.01)I 分类 计算;推算;计数;
发明人 蒋遂平;袁晓光;王璐静;刘轩;臧小滨 申请(专利权)人 北京航天爱威电子技术有限公司
代理机构 中国兵器工业集团公司专利中心 代理人 辛海明
地址 100854北京市海淀区永定路51号
法律状态 -

摘要

摘要 本发明涉及一种利用正交变换计算汉语词向量的方法,属于语言处理领域。本发明将单个汉字用数值矩阵表示;用一个汉语词中的汉字的数值矩阵合成这个汉语词本身的数值矩阵;对单个汉语词的数值矩阵进行正交变换,得到正交变换后的系数矩阵;将汉语词正交变换系数矩阵归一化,使得正交变换系数矩阵的元素平方和等于1.0;在经过归一化的正交变换系数矩阵的左上角子矩阵或整个矩阵的元素按行或按列的顺序排列,得到汉语词的词向量。本发明先将汉语词表示为数值矩阵,再进行正交变换和归一化,最后截取低频系数作为汉语词的词向量,计算简单,可以避免汉语词向量化时常见的“未登录词”问题,在汉语的自然语言处理中具有重要的应用价值。