文档解析方法与装置
基本信息
申请号 | CN201810444475.8 | 申请日 | - |
公开(公告)号 | CN108614898A | 公开(公告)日 | 2021-06-25 |
申请公布号 | CN108614898A | 申请公布日 | 2021-06-25 |
分类号 | G06F17/30 | 分类 | 计算;推算;计数; |
发明人 | 钟翰廷;韩警;吴金龙;王守崑 | 申请(专利权)人 | 爱因互动科技发展(北京)有限公司 |
代理机构 | 北京卓孚知识产权代理事务所(普通合伙) | 代理人 | 刘光明;任宇 |
地址 | 100095 北京市海淀区北清路68号院24号楼D座4层017 | ||
法律状态 | - |
摘要
摘要 | 本公开提供一种文档解析方法与装置。在根据本公开的文档解析方法(100)中,包括如下步骤:针对文档进行内容解析,以检测出文字行(S110);基于机器学习模型,对文字行进行文本整理(S120);基于机器学习模型,对整理后的文本进行文本分类(S130);基于文本分类的结果,对文档内容进行结构化处理(S140)。根据本公开的文档解析技术利用机器学习模型和自然语言处理技术,对初步的解析结果进行纠正,然后通过机器学习技术将解析出来的内容进行分类,提高最终的结构化的效率和准确率。 |
