语义特征提取方法及计算机可读存储介质

基本信息

申请号 CN202111589256.7 申请日 -
公开(公告)号 CN113971407B 公开(公告)日 2022-03-18
申请公布号 CN113971407B 申请公布日 2022-03-18
分类号 G06F40/30(2020.01)I;G06F40/216(2020.01)I;G06F40/237(2020.01)I;G06F16/36(2019.01)I 分类 计算;推算;计数;
发明人 刘国清;杨广;王启程;郑伟;杜佩佩;杨国武 申请(专利权)人 深圳佑驾创新科技有限公司
代理机构 深圳市倡创专利代理事务所(普通合伙) 代理人 罗明玉
地址 518049广东省深圳市福田区梅林街道梅都社区中康路136号深圳新一代产业园1栋401
法律状态 -

摘要

摘要 本发明提供了一种语义特征提取方法,包括:获取若干类别的文本数据,其中,每一类别的文本数据均包括若干单词;计算所有文本数据中每一单词与每一类别的相关性;根据相关性从文本数据中选取部分单词作为候选词;计算预设特征词库中的预设特征词和候选词之间的互信息,其中,预设特征词库中的预设特征词用于描述文本数据的类别;根据互信息选取部分候选词加入预设特征词库中以形成类别语义词库;根据类别语义词库对文本数据进行掩码处理以得到掩码文本;根据掩码文本训练BERT模型以得到语义特征提取模型;以及将每一类别的文本数据输入语义特征提取模型以得到相应的语义特征向量。本发明技术方案用于提取各类别的语义特征向量。