基于Bi-LSTM和CRF的文本序列标注系统及方法

基本信息

申请号 CN201710828497.X 申请日 -
公开(公告)号 CN107622050B 公开(公告)日 2021-02-26
申请公布号 CN107622050B 申请公布日 2021-02-26
分类号 G06F40/289(2020.01)I;G06N3/04(2006.01)I;G06F16/35(2019.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 金勇;吴兵;朱阳光;李力 申请(专利权)人 武汉烽火普天信息技术有限公司
代理机构 上海精晟知识产权代理有限公司 代理人 冯子玲
地址 430000湖北省武汉市东湖开发区关山二路附4号
法律状态 -

摘要

摘要 本发明公开了基于Bi‑LSTM和CRF的文本序列标注系统及方法,系统包括学习模块和标注模块,标注模块包括分词模块、语料标注模块和调优模块,语料标注模块包括词性标注模块和实体识别模块;方法为将获取的语料进行预处理,将预处理后的语料输入预设的学习模型,调整学习模型的参数并保存,根据学习模型输出的序列分类结果为语料分别添加对应的预测标签,对于未知语料,进行分词,利用调整的学习模块对分词后的未知语料进行初次标注,将初次标注的未知语料进行调优,对调优后的语料进行最终标注;本发明使用户可以根据需求对词库进行调整,具有人机交互调整的功能,实现同一领域自动标注,不同领域半自动标注过程,提升效率,降低成本。