一种结合多任务学习的跨文档实体识别方法
基本信息
申请号 | CN202011290323.0 | 申请日 | - |
公开(公告)号 | CN112347784A | 公开(公告)日 | 2021-02-09 |
申请公布号 | CN112347784A | 申请公布日 | 2021-02-09 |
分类号 | G06F40/295(2020.01)I; | 分类 | 计算;推算;计数; |
发明人 | 王东升;范红杰;胡振宇;柳军飞 | 申请(专利权)人 | 湖南国发控股有限公司 |
代理机构 | 长沙市标致专利代理事务所(普通合伙) | 代理人 | 蒋佳玉 |
地址 | 410011湖南省长沙市雨花区美林街35号盐船山生态园1栋2701房 | ||
法律状态 | - |
摘要
摘要 | 一种结合多任务学习的跨文档实体识别方法,本方法的整体架构中包括数据预处理模块、词嵌入与字符嵌入模块、句子级BiLSTM、联合跨文档的CRF模块、跨文档注意力模块和基于多任务学习的多分类与损失计算模块。本发明中结合多任务学习的跨文档实体识别方法,使用attention机制生成每个token的跨文档语义表示,利用多任务学习设计辅助任务提高实体识别准确率。无需词性等额外特征,有效利用同一token在不同文档的重复出现,建立跨文档语义关联,提高实体识别准确率。 |
