实体词识别方法及装置

基本信息

申请号 CN201710580389.5 申请日 -
公开(公告)号 CN107480197B 公开(公告)日 2020-12-18
申请公布号 CN107480197B 申请公布日 2020-12-18
分类号 G06F16/35;G06F16/36;G06F16/25;G06F40/30 分类 计算;推算;计数;
发明人 晋彤;李永康 申请(专利权)人 云润大数据服务有限公司
代理机构 - 代理人 -
地址 510665 广东省广州市天河区天河软件园高普路1023号5303室
法律状态 -

摘要

摘要 本发明公开了一种实体词识别方法,包括步骤:收集结构化数据,通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库;将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证;接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别;基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中,有效解决了现有技术实体词识别效率低和成本高的问题,能自动识别实体词并更新词库。