一种处理带格式风格文本的要素内容抽取方法
基本信息
申请号 | CN202110095807.8 | 申请日 | - |
公开(公告)号 | CN112800762A | 公开(公告)日 | 2021-05-14 |
申请公布号 | CN112800762A | 申请公布日 | 2021-05-14 |
分类号 | G06F40/289;G06F40/295;G06F40/126;G06F40/30;G06F16/35;G06N3/04 | 分类 | 计算;推算;计数; |
发明人 | 金鑫;李鹏辉 | 申请(专利权)人 | 上海犀语科技有限公司 |
代理机构 | 上海乐泓专利代理事务所(普通合伙) | 代理人 | 苏杰 |
地址 | 200082 上海市杨浦区伟德路6号1005-18室 | ||
法律状态 | - |
摘要
摘要 | 本发明的一种处理带格式风格文本的要素内容抽取方法及系统,方法包括如下步骤:S100、事件检测;S200、事件定义;S300、文本标注;S400、模型训练;S500、特征提取;S600、标签预测;系统包括事件检测模块和要素级别实体抽取模块,事件检测模块将文本生成对应的句子向量;采用BiLSTM‑CRF对长文本中的句子进行标注,区分出每个相关的独立事件,要素级别实体抽取模块采用预训练好的BERT模型进行特征提取,得到句子中每个字的嵌入向量,并捕捉双向的语义依赖,利用CRF来学习一个最优路径,进行实体级别的标签预测,可以提升文本数据的采集和录入的时间,提升效率节约人工成本。 |
