面向金融行业的基于深度学习文本相似性检测方法

基本信息

申请号 CN201910008264.4 申请日 -
公开(公告)号 CN110196906A 公开(公告)日 2019-09-03
申请公布号 CN110196906A 申请公布日 2019-09-03
分类号 G06F16/35(2019.01)I; G06F17/27(2006.01)I; G06N3/04(2006.01)I; G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 杜广龙; 陈震星; 李方; 梁殷浩; 罗静; 邓勇达 申请(专利权)人 上海中软华腾软件系统有限公司
代理机构 广州粤高专利商标代理有限公司 代理人 何淑珍;江裕强
地址 510640 广东省广州市天河区五山路381号
法律状态 -

摘要

摘要 本发明提出了一种面向金融行业的基于深度学习文本相似性检测方法,包括:S1、步骤:建立专有名词词库,再基于条件随机场得到条件概率模型,通过条件概率模型进行概率计算。S2、使用Bi‑LSTM‑RNN模型按顺序将句子中的每个单词取出,提取其信息,并将其嵌入到语义向量中,从而获取句子的语义表示。S3、根据神经网络提取出的语义信息,分析句子的逻辑结构,将句子组织成树状结构,最后将段落按照向量树的方式表示出来。S4、将文本中提取到的向量树与数据库内的历史数据文档进行匹配,分别从两个角度比较相似性,一个是向量树之间的相似度,另一个是每个节点之间的相似度,最终得到结果。