一种微博用户挖掘方法及装置

基本信息

申请号 CN201310321021.9 申请日 -
公开(公告)号 CN103345535B 公开(公告)日 2017-03-29
申请公布号 CN103345535B 申请公布日 2017-03-29
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 易卉芹 申请(专利权)人 人民搜索网络股份公司
代理机构 北京集佳知识产权代理有限公司 代理人 王宝筠
地址 100026 北京市朝阳区金台西路2号[4-1]15幢3层370室
法律状态 -

摘要

摘要 一种微博用户挖掘方法及装置,包括:判断用户列表中是否存在未处理用户;如果不存在,则按照预设规则从微博网页中抓取用户数据,并判断用户数据对应的抓取用户是否存在于用户列表,如果不存在,则将该抓取用户添加至用户列表,并设置该抓取用户的状态为已处理;如果存在,则判断该未处理用户是否具有下级用户:如果具有,则获取该未处理用户的下级用户,并将下级用户添加到用户列表,设置未处理用户的状态为已处理;将下级用户作为未处理用户,继续执行判断未处理用户是否具有下级用户的步骤;如果不具有,则设置该未处理用户的状态为已处理。一方面可降低挖掘结果对种子用户选取的依赖性;另一方面还可提高用户覆盖面,挖掘出尽量多的微博用户。