一种基于多维度向量化编码的文本相似度计算方法及装置

基本信息

申请号 CN201911224993.X 申请日 -
公开(公告)号 CN110956039A 公开(公告)日 2020-04-03
申请公布号 CN110956039A 申请公布日 2020-04-03
分类号 G06F40/289(2020.01)I 分类 计算;推算;计数;
发明人 谭明;张建辉;袁亚洲;刁玉贤;余雯婧;高依舟 申请(专利权)人 中国太平洋保险(集团)股份有限公司
代理机构 上海宝鼎专利代理有限公司 代理人 张宝让
地址 200010上海市黄浦区中山南路1号
法律状态 -

摘要

摘要 本发明公开了一种基于多维度向量化编码的文本相似度计算方法,包括:a.对第一目标文本进行多维度语义特征处理构建四种与第一目标文本相匹配的Embedding向量,所述Embedding向量包括S1、S2、S3以及S4;b.基于输出向量U以及权重向量WeightingU确定用以评价四种Embedding向量加权关系的Attention向量SelfAttentionU;c.基于四种Embedding向量以及Attention向量SelfAttentionU确定第一目标文本的多维度向量X;d.对第二目标文本重复执行步骤a至c,确定第二目标文本的多维度向量Y;e.基于皮尔森相关系数确定X与Y的相似性。本方法在相似度模型训练时,对多个向量进行加权,权重作为模型需要学习的参数,通过深度学习算法对文本进行编码建模,从而寻找最优参数。本发明使用方便,功能强大,计算精确,具有极高的商业价值。