互联网文本实体识别方法、系统、电子设备及存储介质

基本信息

申请号 CN202110287954.5 申请日 -
公开(公告)号 CN113051921A 公开(公告)日 2021-06-29
申请公布号 CN113051921A 申请公布日 2021-06-29
分类号 G06F40/295;G06F16/953;G06F40/242 分类 计算;推算;计数;
发明人 李涛;赵冲;骆飞;李青龙 申请(专利权)人 北京智慧星光信息技术有限公司
代理机构 北京智宇正信知识产权代理事务所(普通合伙) 代理人 李明卓
地址 100080 北京市海淀区海淀大街8号A座22层A区
法律状态 -

摘要

摘要 本发明公开了一种互联网文本实体识别方法、系统、电子设备及存储介质,该方法包括:将历史互联网文本输入实体识别AI模型中得到初始化全量词表;根据初始化全量词表构建全量词字典树;根据实体识别AI模型和全量词字典树对实时抽样互联网文本进行识别处理得到精选词表;根据精选词表构建精选词字典树;按照预设中文断句符号对待识别实时互联网文本进行拆分得到拆分子句;将拆分子句与精选词字典树进行匹配得到匹配子句;将匹配子句按照预设顺序进行拼接后输入实体识别AI模型得到实体识别结果,按照实体类别进行类别输出。根据精选词表对待识别实时互联网文本进行逐句筛选,只留下可能含有实体的句子,从而大幅度降低计算的文本量,降低了运行成本。