基于Bi-LSTM和CRF的文本序列标注系统及方法
基本信息
申请号 | CN201710828497.X | 申请日 | - |
公开(公告)号 | CN107622050B | 公开(公告)日 | 2021-02-26 |
申请公布号 | CN107622050B | 申请公布日 | 2021-02-26 |
分类号 | G06F40/289(2020.01)I;G06N3/04(2006.01)I;G06F16/35(2019.01)I;G06N3/08(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 金勇;吴兵;朱阳光;李力 | 申请(专利权)人 | 武汉烽火普天信息技术有限公司 |
代理机构 | 上海精晟知识产权代理有限公司 | 代理人 | 冯子玲 |
地址 | 430000湖北省武汉市东湖开发区关山二路附4号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了基于Bi‑LSTM和CRF的文本序列标注系统及方法,系统包括学习模块和标注模块,标注模块包括分词模块、语料标注模块和调优模块,语料标注模块包括词性标注模块和实体识别模块;方法为将获取的语料进行预处理,将预处理后的语料输入预设的学习模型,调整学习模型的参数并保存,根据学习模型输出的序列分类结果为语料分别添加对应的预测标签,对于未知语料,进行分词,利用调整的学习模块对分词后的未知语料进行初次标注,将初次标注的未知语料进行调优,对调优后的语料进行最终标注;本发明使用户可以根据需求对词库进行调整,具有人机交互调整的功能,实现同一领域自动标注,不同领域半自动标注过程,提升效率,降低成本。 |
