基于特征增强的电力实体识别方法及系统

基本信息

申请号 CN202110418764.2 申请日 -
公开(公告)号 CN113239686A 公开(公告)日 2021-08-10
申请公布号 CN113239686A 申请公布日 2021-08-10
分类号 G06F40/284;G06F40/295;G06F40/242;G06N3/08 分类 计算;推算;计数;
发明人 刘文松;胡竹青;张锦辉;林峰;刘雪菁;张志鹏;朱泐;陆叶青;邵瑞;杨燕吉;贺豪 申请(专利权)人 江苏瑞中数据股份有限公司
代理机构 南京纵横知识产权代理有限公司 代理人 陈珉
地址 210003 江苏省南京市鼓楼区南瑞路8号
法律状态 -

摘要

摘要 本发明公开了一种基于特征增强的电力实体识别方法,包括对用于进行训练的文本进行分词;通过word2vec对分词后的单词进行训练得到单词向量;通过word2vec基于字符粒度对未分词训练的文本进行训练得到单字向量;通过GRU神经网络对单词中所含单字的单字向量进行训练得到分词结构特征向量;根据分词结构特征向量构建向量词典;从向量词典中找到待识别文本序列的对应向量表达,通过实体识别模型对对应向量表达进行识别得到实体标签序列,本发针对电力专业领域实体嵌套、实体结构复杂、语料规模小等特点,引入了一种融合字符(单字)、分词的多粒度文本特征增强方法,实现电力技术命名实体识别的性能大幅提升。