文档解析方法与装置

基本信息

申请号 CN201810444475.8 申请日 -
公开(公告)号 CN108614898A 公开(公告)日 2021-06-25
申请公布号 CN108614898A 申请公布日 2021-06-25
分类号 G06F17/30 分类 计算;推算;计数;
发明人 钟翰廷;韩警;吴金龙;王守崑 申请(专利权)人 爱因互动科技发展(北京)有限公司
代理机构 北京卓孚知识产权代理事务所(普通合伙) 代理人 刘光明;任宇
地址 100095 北京市海淀区北清路68号院24号楼D座4层017
法律状态 -

摘要

摘要 本公开提供一种文档解析方法与装置。在根据本公开的文档解析方法(100)中,包括如下步骤:针对文档进行内容解析,以检测出文字行(S110);基于机器学习模型,对文字行进行文本整理(S120);基于机器学习模型,对整理后的文本进行文本分类(S130);基于文本分类的结果,对文档内容进行结构化处理(S140)。根据本公开的文档解析技术利用机器学习模型和自然语言处理技术,对初步的解析结果进行纠正,然后通过机器学习技术将解析出来的内容进行分类,提高最终的结构化的效率和准确率。