一种基于无标注语料的实体匹配方法和系统
基本信息
申请号 | CN202110887645.1 | 申请日 | - |
公开(公告)号 | CN113343702A | 公开(公告)日 | 2021-09-03 |
申请公布号 | CN113343702A | 申请公布日 | 2021-09-03 |
分类号 | G06F40/295(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 韩瑞峰;杨红飞;金霞 | 申请(专利权)人 | 杭州费尔斯通科技有限公司 |
代理机构 | 杭州创智卓英知识产权代理事务所(普通合伙) | 代理人 | 张超 |
地址 | 310000浙江省杭州市滨江区西兴街道阡陌路482号B楼第七层 | ||
法律状态 | - |
摘要
摘要 | 本申请涉及一种基于无标注语料的实体匹配方法和系统,其中,该方法包括:通过对目标语料进行分割,得到若干候选实体,并计算得出候选实体的统计信息,获取种子实体集,根据种子实体集和候选实体的统计信息,从候选实体中判断选取出与种子实体最接近的实体,得到若干最优候选实体,将最优候选实体加入种子实体集中,重复上述判断选取,直到没有最优候选实体产生,基于产生的最优候选实体和种子实体的词向量,判断最优候选实体是否为实体,得到实体识别的结果。通过本申请,解决了实体识别中对标注样本依赖性强和识别准确率低的问题,实现了利用领域实体词列表,得到无标签的目标语料的实体识别结果,同时也达到了对领域实体词列表进行扩充的效果。 |
