一种基于实体词列表的实体识别方法和装置

基本信息

申请号 CN202110648321.2 申请日 -
公开(公告)号 CN113255356B 公开(公告)日 2021-09-28
申请公布号 CN113255356B 申请公布日 2021-09-28
分类号 G06F40/295(2020.01)I;G06F40/216(2019.01)I;G06F16/35(2019.01)I 分类 计算;推算;计数;
发明人 韩瑞峰;金霞;杨红飞;程东 申请(专利权)人 杭州费尔斯通科技有限公司
代理机构 杭州创智卓英知识产权代理事务所(普通合伙) 代理人 张超
地址 310000浙江省杭州市滨江区西兴街道阡陌路482号B楼第七层
法律状态 -

摘要

摘要 本申请涉及一种基于实体词列表的实体识别方法和装置,其中,该方法包括:通过将预设语料中的所有句子分割得到若干子序列,记录子序列在预设语料中的位置,统计子序列在预设语料中出现的次数,根据实体词列表设置子序列的标签,计算子序列的特征集合和先验概率,最后得到子序列的置信度,基于置信度对句子进行重新分割,保存实体分割结果,实体分割结果用于对序列标注模型预测的结果进行校正,识别出子序列的类型,通过本申请,解决了对标注样本依赖性强和识别准确率低的问题,实现了基于实体词列表进行远程监督学习,结合有监督的序列标注模型可得到准确率更高的抽取模型,降低对标注样本的依赖性,可用于多场景下的实体抽取和新词发现。