一种基于索引数据的自然语言处理方法和系统

基本信息

申请号 CN202010147917.X 申请日 -
公开(公告)号 CN111488423B 公开(公告)日 2020-08-04
申请公布号 CN111488423B 申请公布日 2020-08-04
分类号 G06F16/31(2019.01)I 分类 计算;推算;计数;
发明人 刘占亮;钱泓锦;窦志成;刘家俊 申请(专利权)人 北京一览群智数据科技有限责任公司
代理机构 北京天方智力知识产权代理事务所(普通合伙) 代理人 北京一览群智数据科技有限责任公司
地址 100080北京市海淀区丹棱街1号院1号楼25层2510室
法律状态 -

摘要

摘要 本发明提供了一种基于索引数据的自然语言处理方法和系统,解决现有语言模型训练缺乏有效数据样本无法形成中文词汇特征准确表达的技术问题。方法包括:建立汉语语料的字形索引,根据字形索引形成汉语语料的基本向量,利用基本向量形成汉语的语句训练集;通过语句训练集对循环神经网络进行训练形成汉语语句模型;根据汉语语句模型获取汉语字符的语义隐性特征向量形成词向量。有利于形成与实际语义处理任务相适应的向量维度空间,为具体语义处理任务提供良好的样本衡量基础。避免了现有循环神经网络结构针对字符级别的汉语隐性相关性缺乏有效识别的严重缺陷。