一种文本要素提取方法专利查询专利号|摘要-满商公司网

一种文本要素提取方法

基本信息

摘要

摘要	本发明公开了一种文本要素提取方法，包括以下步骤：将文本分割，并转换为字符序列；赋予字符若干种表征方式，合并后得到向量集合；将向量集合分为多个子集并进行若干次要素提取模型训练得到最终模型；利用最终模型根据匹配规则进行文本要素提取。每种字符多种表征方式，使得向量集合的数据量庞大，同时通过拆分子集的形式，相互验证和优化，充分利用数据资源，降低数据量要求，提高效率。本发明的实质性效果包括：既能解决无规则模式的新增要素的数据获取问题，减少人工标注成本，又能解决直接在已有模型上增加具备规则模式的新增要素使其作为新优化模型，缩短业务实施时间，增强识别效果。