一种数据特征提取、匹配方法及装置

基本信息

申请号 CN202011335129.X 申请日 -
公开(公告)号 CN112395292A 公开(公告)日 2021-02-23
申请公布号 CN112395292A 申请公布日 2021-02-23
分类号 G06F16/22(2019.01)I; 分类 计算;推算;计数;
发明人 吕凯辉 申请(专利权)人 电信科学技术第十研究所有限公司
代理机构 广州三环专利商标代理有限公司 代理人 党娟娟;郭永丽
地址 710061陕西省西安市雁塔西路6号
法律状态 -

摘要

摘要 本发明公开了一种数据特征提取、匹配方法及装置,涉及通信技术领域。该方法包括:利用图形化界面配置,将结构化数据写入原始数据库表中;利用大平台ETL能力对结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载目标库表;从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要;基于ID‑Mapping将目标库表中的规范数据与第一库表和图片库中的非结构化数据进行关联,将具有关联关系的匹配结果打包为zip文件。