一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质
基本信息
申请号 | CN202110618601.9 | 申请日 | - |
公开(公告)号 | CN113268982A | 公开(公告)日 | 2021-08-17 |
申请公布号 | CN113268982A | 申请公布日 | 2021-08-17 |
分类号 | G06F40/279(2020.01)I;G06F16/335(2019.01)I;G06F16/901(2019.01)I;G06F40/216(2020.01)I;G06F40/242(2020.01)I;G06F40/30(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 王志斌;段炼;周忠诚;彭文凯;黄九鸣;张圣栋 | 申请(专利权)人 | 湖南四方天箭信息科技有限公司 |
代理机构 | 长沙智嵘专利代理事务所(普通合伙) | 代理人 | 颜汉华 |
地址 | 410000湖南省长沙市高新开发区岳麓西大道588号芯城科技园8栋1301房 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质,该方法先通过对输入的HTML文件进行预处理以获取其中的表格相关信息,所述表格相关信息包括单元格文本和单元格所在位置,然后通过利用训练好的网络表格结构识别模型基于获取的单元格文本和单元格所在位置进行网络表格结构的识别,由于采用单元格作为最小识别粒度,相对于现有采用表格行作为识别单位,大大提升了识别结果的准确度,可以适应各种复杂的网络表格结构识别场景。 |
