基于分布式平台的行业文本实体提取方法
基本信息
申请号 | CN201710902720.0 | 申请日 | - |
公开(公告)号 | CN107908642A | 公开(公告)日 | 2018-04-13 |
申请公布号 | CN107908642A | 申请公布日 | 2018-04-13 |
分类号 | G06F17/30;G06F17/27 | 分类 | 计算;推算;计数; |
发明人 | 武克杰;周书勇 | 申请(专利权)人 | 江苏华通晟云科技有限公司 |
代理机构 | 苏州创元专利商标事务所有限公司 | 代理人 | 范晴;丁浩秋 |
地址 | 215000 江苏省苏州市工业园区星湖街328号创意产业园2-B803 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于分布式平台的行业文本实体提取方法,包括:采用深度学习神经网络训练文本数据集得到关系特征模型;将提取的关系特征生成多个弹性分布式关系特征数据集RDD;将RDD中的数据集通过改进的非线性SVM分类算法训练得到的类别特征模型提取类别特征;根据提取的类别特征找到对应语境实体模型,并通过训练好的实体模型提取对应类别特征的文本中的实体数据;判断相应语境文的本数量是否超过设定阈值,若超过阈值时,重新训练该语境实体模型,利用重新训练的实体模型提取对应类别特征的文本中的实体数据,否则,保存文本实体特征和文本数据。可以处理不同语境下的文本特征实体,有效提高了实体提取的效率以及提取实体准确率。 |
