一种基于神经网络的PDF文档内容文本段落聚合的方法专利查询专利号|摘要-满商公司网

一种基于神经网络的PDF文档内容文本段落聚合的方法

基本信息

摘要

摘要	本发明公开了一种基于神经网络的PDF文档内容文本段落聚合的方法，通过定义一行文本的几十个特征、把特征转换为多维向量、生成样本数据集、设计算法模型，持续训练模型，最后输出训练好的算法模型。实现对输入的两行文本，使用此算法模型，准确判断是否这两行文本应该合并到同一个段落。本发明基于神经网络的人工智能技术，研发应用程序对PDF提取的行文字自动聚合成段落，还原文字原本的句子和段落结构信息，便于PDF内容数据的重复利用；人工智能程序自动聚合的效率是人工处理无法企及的，实现机器代替人工，节约人力成本、大幅提高效率。