通用文本解析架构及基于所述架构解析文本的方法和装置

基本信息

申请号 CN201611249460.3 申请日 -
公开(公告)号 CN108255802B 公开(公告)日 2021-08-24
申请公布号 CN108255802B 申请公布日 2021-08-24
分类号 G06F40/211;G06F40/253;G06F40/284 分类 计算;推算;计数;
发明人 石鹏;姜珂 申请(专利权)人 北京国双科技有限公司
代理机构 北京鼎佳达知识产权代理事务所(普通合伙) 代理人 王伟锋;刘铁生
地址 100083 北京市海淀区北四环中路229号海泰大厦4层南401号
法律状态 -

摘要

摘要 本发明公开一种通用文本解析架构及基于所述架构解析文本的方法和装置,涉及数据分析技术领域,能够提高开发完整文本解析程序的效率。架构中的预处理层用于提供组件化的预处理逻辑,在基于预处理逻辑获得预处理组件后,利用预处理组件对文本进行预处理,并将预处理结果传输至语料仓库层进行缓存;信息搜索算法层用于提供对公共算法进行封装的信息搜索逻辑,并在基于信息搜索逻辑获得封装的算法后,将算法进行缓存,预处理组件和/或算法有热插拔性;维度业务逻辑层用于通过调用信息搜索算法层中的算法,实现对语料仓库层中缓存的预处理结果的搜索,并通过维度业务逻辑对搜索结果进行处理获得文本解析结果。主要适用于开发文本解析程序的场景中。