一种半结构文本的信息提取装置
基本信息
申请号 | CN202110414726.X | 申请日 | - |
公开(公告)号 | CN113326690A | 公开(公告)日 | 2021-08-31 |
申请公布号 | CN113326690A | 申请公布日 | 2021-08-31 |
分类号 | G06F40/205(2020.01)I;G06F40/284(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 周靖宇;袁阳平;刘宇轩;景泳霖;邹鸿岳 | 申请(专利权)人 | 北京快确信息科技有限公司 |
代理机构 | 深圳华屹智林知识产权代理事务所(普通合伙) | 代理人 | 陈裕恒 |
地址 | 201700上海市青浦区浦仓路485号1幢2层 | ||
法律状态 | - |
摘要
摘要 | 一种半结构文本的信息提取装置,它涉及AI技术领域,具体涉及一种半结构文本的信息提取装置。它包括了对句子的分词和结构提取;编码层模块,采用Albert或LSTM对文本的字符进行embedding;图注意力网络结构层,用于将融合了“结构特征”的词向量融合到“字符”向量的表达上;不同粒度特征的聚合层,采用transformer的decoder方式进行聚合;解码层,采用成熟的CRF算法,对编码结果R进行解码,获得最终序列标注的结果。采用上述技术方案后,本发明有益效果为:它能够实现对文本中“结构特征”的学习,在针对金融领域的数据抽取中能提升2%‑5%以上的准确率。 |
