一种基于索引数据的自然语言处理方法和系统专利查询专利号|摘要-满商公司网

一种基于索引数据的自然语言处理方法和系统

基本信息

摘要

摘要	本发明提供了一种基于索引数据的自然语言处理方法和系统，解决现有语言模型训练缺乏有效数据样本无法形成中文词汇特征准确表达的技术问题。方法包括：建立汉语语料的字形索引，根据字形索引形成汉语语料的基本向量，利用基本向量形成汉语的语句训练集；通过语句训练集对循环神经网络进行训练形成汉语语句模型；根据汉语语句模型获取汉语字符的语义隐性特征向量形成词向量。有利于形成与实际语义处理任务相适应的向量维度空间，为具体语义处理任务提供良好的样本衡量基础。避免了现有循环神经网络结构针对字符级别的汉语隐性相关性缺乏有效识别的严重缺陷。