一种半结构文本的信息提取装置

基本信息

申请号 CN202110414726.X 申请日 -
公开(公告)号 CN113326690A 公开(公告)日 2021-08-31
申请公布号 CN113326690A 申请公布日 2021-08-31
分类号 G06F40/205(2020.01)I;G06F40/284(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 周靖宇;袁阳平;刘宇轩;景泳霖;邹鸿岳 申请(专利权)人 北京快确信息科技有限公司
代理机构 深圳华屹智林知识产权代理事务所(普通合伙) 代理人 陈裕恒
地址 201700上海市青浦区浦仓路485号1幢2层
法律状态 -

摘要

摘要 一种半结构文本的信息提取装置,它涉及AI技术领域,具体涉及一种半结构文本的信息提取装置。它包括了对句子的分词和结构提取;编码层模块,采用Albert或LSTM对文本的字符进行embedding;图注意力网络结构层,用于将融合了“结构特征”的词向量融合到“字符”向量的表达上;不同粒度特征的聚合层,采用transformer的decoder方式进行聚合;解码层,采用成熟的CRF算法,对编码结果R进行解码,获得最终序列标注的结果。采用上述技术方案后,本发明有益效果为:它能够实现对文本中“结构特征”的学习,在针对金融领域的数据抽取中能提升2%‑5%以上的准确率。