从研报中进行关键信息提取方法及相关设备

基本信息

申请号 CN202110421724.3 申请日 -
公开(公告)号 CN112990110A 公开(公告)日 2021-06-18
申请公布号 CN112990110A 申请公布日 2021-06-18
分类号 G06K9/00;G06K9/62;G06N3/04;G06N3/08 分类 计算;推算;计数;
发明人 朱召文;李宜博;李鹏 申请(专利权)人 数库(上海)科技有限公司
代理机构 上海十蕙一兰知识产权代理有限公司 代理人 刘秋兰
地址 201112 上海市闵行区陈行路2388号9号楼8层801室
法律状态 -

摘要

摘要 本发明属于数据处理技术领域,具体涉及一种从研报中进行关键信息提取方法及相关设备。其中方法包括:获取研报文件,型对研报文件进行目标检测,得到目标检测结果,目标检测结果为多个目标在研报文件中的位置及类别信息;解析研报文件,获取研报文件内每一页中的字符信息,根据目标检测结果,将位于同一个目标内的字符进行合并,得到文本信息和对应的坐标位置;通过预设的文本分类模型对文本信息进行主题分类,对研报文件按主题分类进行分类存储和输出。本发明可以对不同主题的研报文件进行分类,通过对研报主题进行分类,可以快速的筛选出自己所关注的研报类别,忽略不相关的研报。