一种基于SegaBert预训练模型的文本、简历和理财公告抽取方法
基本信息

| 申请号 | CN202110865625.4 | 申请日 | - |
| 公开(公告)号 | CN113486141A | 公开(公告)日 | 2021-10-08 |
| 申请公布号 | CN113486141A | 申请公布日 | 2021-10-08 |
| 分类号 | G06F16/31(2019.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06F40/253(2020.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分类 | 计算;推算;计数; |
| 发明人 | 戴良智;高宇栋;娄旭芳;王靖波;李明 | 申请(专利权)人 | 宁波薄言信息技术有限公司 |
| 代理机构 | 北京墨丘知识产权代理事务所(普通合伙) | 代理人 | 代峰 |
| 地址 | 315000浙江省宁波市高新区光华路299弄9幢19号9-9室 | ||
| 法律状态 | - | ||
摘要

| 摘要 | 本发明公开了一种基于SegaBert预训练模型的文本、简历和理财公告抽取方法在预训练阶段,能利用更丰富的位置表征,对段落、句子、词语三者间的位置关系联合建模,对输入的文本能做到片段感知,提升了预训练语言模型的文本编码能力,使其在微调阶段得到更完善的句子和篇章表示,进而提升下游任务的预测效果。增加对标注和训练样本预处理,能够筛选出更合理的数据;提取简历文本信息,对各个简历文本信息进行中文分词,实现所需简历信息的准确提取,可以提高简历信息的抽取效率;通过对理财公告的文本进行标注,通过对预训练模型进行预训练,从而通过训练后的预训练模型实现理财公告信息的获取。 |





