一种医疗病理报告图片的文本结构化处理系统和方法

基本信息

申请号 CN202011029211.X 申请日 -
公开(公告)号 CN112185520A 公开(公告)日 2021-01-05
申请公布号 CN112185520A 申请公布日 2021-01-05
分类号 G16H30/20;G06F16/35;G06F40/232;G06F40/242;G06F40/295;G06K9/20;G06N3/04;G06N3/08 分类 物理
发明人 骆佳俊;魏博;马素芬;许永超;李力行;凌少平 申请(专利权)人 志诺维思(北京)基因科技有限公司
代理机构 北京超凡宏宇专利代理事务所(特殊普通合伙) 代理人 志诺维思(北京)基因科技有限公司
地址 102200 北京市昌平区沙河镇能源东路1号院1号楼3层309-3
法律状态 -

摘要

摘要 本申请提供了一种医疗病理报告图片的文本结构化处理系统和方法,其中,该系统包括:文本识别模块,用于对医疗病理报告图片进行文本识别,并对识别出的字词进行纠错处理,得到病理文本;文本切割模块,用于将病理文本切割为结构化文本和非结构化文本;字典匹配模块和模型预测模块,用于确定第一和第二医疗指标名实体数据结构;策略融合模块,用于对其进行融合得到医疗指标名实体;数据封装模块,用于封装医疗指标名实体和结构化文本;策略归一化模块,用于对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。本申请可提高图文识别的准确率,在医疗病理信息系统中更加方便快捷的实现了数据抽取、结构化、存储等多个业务需求。