文本中关键段落的检测方法及装置

基本信息

申请号 CN201910821973.4 申请日 -
公开(公告)号 CN110532563A 公开(公告)日 2019-12-03
申请公布号 CN110532563A 申请公布日 2019-12-03
分类号 G06F17/27;G06N3/04 分类 计算;推算;计数;
发明人 熊玉竹;周以晴;侯绍东 申请(专利权)人 苏州美能华智能科技有限公司
代理机构 苏州谨和知识产权代理事务所(特殊普通合伙) 代理人 叶栋
地址 215123 江苏省苏州市苏州工业园区金鸡湖大道88号7期G1-902单元
法律状态 -

摘要

摘要 本申请揭示了一种文本中关键段落检测方法及装置,该方法包括将待检测文本进行切分复制处理得到段落集;将各个段落集均输入至标签预测模型中,得到各个段落的标签;去除段落集中无效的首端预定字数和尾端预定字数,将剩余的有效文本的标签拼接在一起,得到段落集所对应的原始的各段落的标签;筛选出标签为B和I的原始段落作为关键段落。本申请通过将待检测文本进行切分,得到较短的段落集,利用标签预测模型对每个段落集中的段落进行预测,得到各段落的标签,为了降低切分段落集所导致的起始边界处上文信息缺失和结尾边界处下文信息缺失,使用重叠操作进行边界处的切分优化,提高了段落预测的准确率,大大降低了段落标签预测的计算复杂度。