基于海量图数据的模型计算方法及装置

基本信息

申请号 CN202011625560.8 申请日 -
公开(公告)号 CN112711659A 公开(公告)日 2021-04-27
申请公布号 CN112711659A 申请公布日 2021-04-27
分类号 G06F16/335;G06F16/31;G06F16/27;G06F16/28 分类 计算;推算;计数;
发明人 顾凌云;郭志攀;王伟;李海全 申请(专利权)人 南京冰鉴信息科技有限公司
代理机构 成都顶峰专利事务所(普通合伙) 代理人 钱学宇
地址 210000 江苏省南京市鼓楼区中山北路99号11层
法律状态 -

摘要

摘要 本发明的基于海量图数据的模型计算方法及装置,将待处理图数据从图数据库JanusGraph导入到hive数据库中得到数据节点列表和数据关系列表并确定每个数据节点及对应的数据关系的连通图id,基于连通图id,聚合同一连通图的数据并推送到hdfs存储中,同时在聚合过程中保留好运行参数与聚合文件的映射并导入hive数据库中,对预设线程参数进行调整得到目标线程参数以进行数据处理得到数据处理结果。提前采用连通图进行了数据拆分,为任务能够并行做好了准备,提前进行了数据筛选和数据转换,减少了计算时的数据量,以及数据转换使得数据安装加载到内存,将单机的模型python代码简单的修改转换为spark代码,能够并行计算且根据计算资源以及任务的需求动态调整并行度。