一种文本要素提取方法

基本信息

申请号 CN202110164189.8 申请日 -
公开(公告)号 CN112989787A 公开(公告)日 2021-06-18
申请公布号 CN112989787A 申请公布日 2021-06-18
分类号 G06F40/205;G06F40/284;G06F40/295;G06K9/62 分类 计算;推算;计数;
发明人 朱宇 申请(专利权)人 杭州云嘉云计算有限公司
代理机构 杭州杭诚专利事务所有限公司 代理人 尉伟敏
地址 311100 浙江省杭州市余杭区五常街道联创街188号5号楼401室
法律状态 -

摘要

摘要 本发明公开了一种文本要素提取方法,包括以下步骤:将文本分割,并转换为字符序列;赋予字符若干种表征方式,合并后得到向量集合;将向量集合分为多个子集并进行若干次要素提取模型训练得到最终模型;利用最终模型根据匹配规则进行文本要素提取。每种字符多种表征方式,使得向量集合的数据量庞大,同时通过拆分子集的形式,相互验证和优化,充分利用数据资源,降低数据量要求,提高效率。本发明的实质性效果包括:既能解决无规则模式的新增要素的数据获取问题,减少人工标注成本,又能解决直接在已有模型上增加具备规则模式的新增要素使其作为新优化模型,缩短业务实施时间,增强识别效果。