一种基于实体扩展的实体识别方法和系统
基本信息
申请号 | CN202110733185.7 | 申请日 | - |
公开(公告)号 | CN113191152A | 公开(公告)日 | 2021-07-30 |
申请公布号 | CN113191152A | 申请公布日 | 2021-07-30 |
分类号 | G06F40/295(2020.01)I;G06F40/289(2020.01)I;G06F40/284(2020.01)I;G06F40/211(2020.01)I;G06K9/62(2006.01)N;G06N3/04(2006.01)N | 分类 | 计算;推算;计数; |
发明人 | 韩瑞峰;金霞;杨红飞;程东 | 申请(专利权)人 | 杭州费尔斯通科技有限公司 |
代理机构 | 杭州创智卓英知识产权代理事务所(普通合伙) | 代理人 | 张超 |
地址 | 310000浙江省杭州市滨江区西兴街道阡陌路482号B楼第七层 | ||
法律状态 | - |
摘要
摘要 | 本申请涉及一种基于实体扩展的实体识别方法和系统,其中,该方法包括:通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,概念词候选集包含若干概念词,通过词嵌入算法对概念词进行训练,得到概念词的词向量,根据词向量计算概念词的文本特征,根据领域实体词列表将概念词设置为正负样本,根据正负样本和文本特征来训练分类模型,得到概念词的置信度,根据置信度进行重新分割,得到基于实体扩展的实体词。通过本申请,解决了实体识别中对标注样本依赖性强和识别准确率低的问题。实现了利用领域实体词列表进行监督学习,得到无标签语料的实体识别结果,同时达到了对领域实体词列表进行扩充的效果。 |
