Word文档的转换方法及系统

基本信息

申请号 CN201611252467.0 申请日 -
公开(公告)号 CN106802937A 公开(公告)日 2017-06-06
申请公布号 CN106802937A 申请公布日 2017-06-06
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 诸葛峰;谢志雄;李济君 申请(专利权)人 江苏中育优教科技发展有限公司
代理机构 北京远大卓悦知识产权代理事务所(普通合伙) 代理人 韩飞
地址 214100 江苏省无锡市滨湖区锦溪路100号
法律状态 -

摘要

摘要 本发明公开一种Word文档的转换方法,包括步骤:对Word文档的全文进行Html标签语言文本化,输出Html标签语言文本;设置具有正则表达式的预定义结构,通过预定义结构对Html标签语言文本执行搜索匹配,输出初步结构化文档型数据;用户根据预定义结构搜索匹配后提示的错误信息,对初步结构化文档型数据中结构的各层级以及内容分别进行人工修正,输出完整的结构化文档型数据。本发明提供的Word文档的转换方法,通过对Word文档Html化、预定义结构搜索匹配以及人工辅助修正的方法,将Word文档中以自然语言组织的内容转为以计算机语言组织的结构化文档型数据存储,供内容数据的便利存储、查询以及分析。