基于分布式平台的行业文本实体提取方法

基本信息

申请号 CN201710902720.0 申请日 -
公开(公告)号 CN107908642A 公开(公告)日 2018-04-13
申请公布号 CN107908642A 申请公布日 2018-04-13
分类号 G06F17/30;G06F17/27 分类 计算;推算;计数;
发明人 武克杰;周书勇 申请(专利权)人 江苏华通晟云科技有限公司
代理机构 苏州创元专利商标事务所有限公司 代理人 范晴;丁浩秋
地址 215000 江苏省苏州市工业园区星湖街328号创意产业园2-B803
法律状态 -

摘要

摘要 本发明公开了一种基于分布式平台的行业文本实体提取方法,包括:采用深度学习神经网络训练文本数据集得到关系特征模型;将提取的关系特征生成多个弹性分布式关系特征数据集RDD;将RDD中的数据集通过改进的非线性SVM分类算法训练得到的类别特征模型提取类别特征;根据提取的类别特征找到对应语境实体模型,并通过训练好的实体模型提取对应类别特征的文本中的实体数据;判断相应语境文的本数量是否超过设定阈值,若超过阈值时,重新训练该语境实体模型,利用重新训练的实体模型提取对应类别特征的文本中的实体数据,否则,保存文本实体特征和文本数据。可以处理不同语境下的文本特征实体,有效提高了实体提取的效率以及提取实体准确率。