一种基于科技媒体云计算非结构化数据处理方法
基本信息
申请号 | CN201310399024.4 | 申请日 | - |
公开(公告)号 | CN104424309A | 公开(公告)日 | 2015-03-18 |
申请公布号 | CN104424309A | 申请公布日 | 2015-03-18 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 渠继永 | 申请(专利权)人 | 清控科创控股股份有限公司 |
代理机构 | 北京市兰台律师事务所 | 代理人 | 清控科创控股股份有限公司 |
地址 | 100084 北京市海淀区清华科技园科技大厦C座9层 | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种基于科技媒体云计算非结构化数据处理方法,主要由(1)进行科技媒体信息数据的获取;(2)根据不同类型的特征进行分布式云存储;(3)对步骤(2)中云存储的非结构化数据,调用后进行离线处理,离线处理包括:清洗、排重、关联、过滤、关键词提取和智能归类,然后将离线处理后的非结构化数据更新到云存储中。本发明定位在科技媒体的垂直领域的基于云计算的非结构化数据解决方案,由于对行业的精准定位,对常用关键词的深入分析,能够提高信息的精准度,同时能排除部分噪音词,提高数据处理的效率。 |
