HTML表格解析为JSON解析系统及其解析方法

基本信息

申请号 CN202011354765.7 申请日 -
公开(公告)号 CN112434491A 公开(公告)日 2021-03-02
申请公布号 CN112434491A 申请公布日 2021-03-02
分类号 G06F40/151(2020.01)I 分类 计算;推算;计数;
发明人 谢刚强;戴集荷;俞川;黄凌峰;邵展翔;王体斌;吴亚民;程丽京;朱群锋 申请(专利权)人 北京互联创新工场投资管理有限公司
代理机构 嘉兴启帆专利代理事务所(普通合伙) 代理人 程开生
地址 310051浙江省杭州市滨江区江南大道3888号信雅达科技大厦5楼512室
法律状态 -

摘要

摘要 本发明公开了HTML表格解析为JSON解析系统及其解析方法,HTML表格解析为JSON解析方法,包括步骤S0:在报文输入模块输入HTML表格,并且报文解析模块对输入的HTML表格进行报文解析,在报文解析的过程中对入HTML表格进行数据完整性校验,并且进行缺失值处理后提取出基础字段形成统一的报文对象,以转换为JAVA对象后生成JSON格式。本发明公开的HTML表格解析为JSON解析系统及其解析方法,在jsoup基础上,基于对HTML中table、tr、th、td等标签语义的理解,可以解析任何符合HTML规范的表格,无需逐个通过标签获取数据进行拼装,支持顶部多重标题头、左侧多重标题头以及相关组合标题头表格的解析工作。