一种基于实体扩展的实体识别方法和系统

基本信息

申请号 CN202110733185.7 申请日 -
公开(公告)号 CN113191152A 公开(公告)日 2021-07-30
申请公布号 CN113191152A 申请公布日 2021-07-30
分类号 G06F40/295(2020.01)I;G06F40/289(2020.01)I;G06F40/284(2020.01)I;G06F40/211(2020.01)I;G06K9/62(2006.01)N;G06N3/04(2006.01)N 分类 计算;推算;计数;
发明人 韩瑞峰;金霞;杨红飞;程东 申请(专利权)人 杭州费尔斯通科技有限公司
代理机构 杭州创智卓英知识产权代理事务所(普通合伙) 代理人 张超
地址 310000浙江省杭州市滨江区西兴街道阡陌路482号B楼第七层
法律状态 -

摘要

摘要 本申请涉及一种基于实体扩展的实体识别方法和系统,其中,该方法包括:通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,概念词候选集包含若干概念词,通过词嵌入算法对概念词进行训练,得到概念词的词向量,根据词向量计算概念词的文本特征,根据领域实体词列表将概念词设置为正负样本,根据正负样本和文本特征来训练分类模型,得到概念词的置信度,根据置信度进行重新分割,得到基于实体扩展的实体词。通过本申请,解决了实体识别中对标注样本依赖性强和识别准确率低的问题。实现了利用领域实体词列表进行监督学习,得到无标签语料的实体识别结果,同时达到了对领域实体词列表进行扩充的效果。