一种结合多任务学习的跨文档实体识别方法

基本信息

申请号 CN202011290323.0 申请日 -
公开(公告)号 CN112347784A 公开(公告)日 2021-02-09
申请公布号 CN112347784A 申请公布日 2021-02-09
分类号 G06F40/295(2020.01)I; 分类 计算;推算;计数;
发明人 王东升;范红杰;胡振宇;柳军飞 申请(专利权)人 湖南国发控股有限公司
代理机构 长沙市标致专利代理事务所(普通合伙) 代理人 蒋佳玉
地址 410011湖南省长沙市雨花区美林街35号盐船山生态园1栋2701房
法律状态 -

摘要

摘要 一种结合多任务学习的跨文档实体识别方法,本方法的整体架构中包括数据预处理模块、词嵌入与字符嵌入模块、句子级BiLSTM、联合跨文档的CRF模块、跨文档注意力模块和基于多任务学习的多分类与损失计算模块。本发明中结合多任务学习的跨文档实体识别方法,使用attention机制生成每个token的跨文档语义表示,利用多任务学习设计辅助任务提高实体识别准确率。无需词性等额外特征,有效利用同一token在不同文档的重复出现,建立跨文档语义关联,提高实体识别准确率。