一种基于Hadoop生态的论文实时推荐与离线推荐互补方法
基本信息
申请号 | CN202111262052.2 | 申请日 | - |
公开(公告)号 | CN113971204A | 公开(公告)日 | 2022-01-25 |
申请公布号 | CN113971204A | 申请公布日 | 2022-01-25 |
分类号 | G06F16/33(2019.01)I;G06F16/335(2019.01)I;G06F40/289(2020.01)I;G06V10/74(2022.01)I;G06F9/54(2006.01)I;G06K9/62(2022.01)I | 分类 | 计算;推算;计数; |
发明人 | 邰伟鹏;赵佳俊;李伟;陈业斌;王小林 | 申请(专利权)人 | 安徽工业大学科技园有限公司 |
代理机构 | 安徽知问律师事务所 | 代理人 | 王亚军 |
地址 | 243000安徽省马鞍山市经济技术开发区(示范园区)嘉善科技园1号科研楼 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于Hadoop生态的论文实时推荐与离线推荐互补方法,属于大数据推荐领域,本发明使用Hadoop生态中的数据仓库Hive存储论文数据,对论文标签进行分词,以向量化方式分层保存在数据仓库中;引入离线计算引擎MapReduce对数据计算离线推荐结果;引入流计算引擎Spark Streaming实时采集Kafka中的论文数据,并进行分词、向量化表示后,与Spark SQL读取Hive数仓中论文向量化数据计算实时推荐结果。本发明专利结合推荐算法和Hadoop生态不仅有效解决海量论文推荐问题,提升论文推荐实时性,同时根据论文分类号修正相似度计算来提升推荐准确度,优化论文推荐结果。 |
