一种面向军事语料的命名实体标注方法

基本信息

申请号 CN202010102664.4 申请日 -
公开(公告)号 CN111428502A 公开(公告)日 2020-07-17
申请公布号 CN111428502A 申请公布日 2020-07-17
分类号 G06F40/295;G06F40/169;G06N3/04 分类 -
发明人 黄宇;冯洋 申请(专利权)人 中科世通亨奇(北京)科技有限公司
代理机构 北京华际知识产权代理有限公司 代理人 中科世通亨奇(北京)科技有限公司
地址 100083 北京市海淀区学院路甲5号2幢平房北1102
法律状态 -

摘要

摘要 本发明公开了一种面向军事语料的命名实体标注方法,分别使用基于双向LSTM与CRF结合的神经网络模型、基于Lattice LSTM神经网络模型和基于BERT预训练神经网络模型三种深度神经网络来进行机器命名实体识别自动标注;使用XGBoost方法将S1的三种算法获取的结果进行集成学习,获取标注成功的样本和标注失败的样本,其中成功样本的定义是三种机器实体识别中任意两种识别结果一致的样本,失败样本的定义三种机器实体识别结果都不一致的样本;使用人工标注的方式标注失败的样本;将所有样本标注结果以json的方式存入数据库管理。本发明可以显著提高军事语料中军事实体的标注准确率,同时以最小的人工代价达到最好的标注效果。