一种热点信息挖掘方法、装置、计算机设备及存储介质
基本信息
申请号 | CN202110169266.9 | 申请日 | - |
公开(公告)号 | CN112836110A | 公开(公告)日 | 2021-05-25 |
申请公布号 | CN112836110A | 申请公布日 | 2021-05-25 |
分类号 | G06F16/951;G06F16/953;G06F16/906;G06K9/62 | 分类 | 计算;推算;计数; |
发明人 | 高登科;徐桢虎;李少博;陈涵宇;余伟 | 申请(专利权)人 | 四川封面传媒有限责任公司 |
代理机构 | 成都顶峰专利事务所(普通合伙) | 代理人 | 杨国瑞 |
地址 | 610000 四川省成都市锦江区红星路二段70号1栋8楼A区 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及数据挖掘技术领域,公开了一种热点信息挖掘方法、装置、计算机设备及存储介质,可以只从网络公开数据出发,实时爬取多源热榜话题及新闻信息,并利用不良审核和深度去重技术进行新闻信息的筛查和过滤,最终采用热点融合实现热点话题发现,构建热点话题新闻库,从而不仅使挖掘结果具有精度高的特点,还可以大大缩减挖掘过程所依赖的数据量,并具有高可信度、高时效性和非不良性的鲁棒性,能够很好满足真实场景的应用。此外,还可以针对全网实时新闻,通过从文本、图片和视频等多个维度进行新闻与热点话题的多模态匹配,并根据匹配结果直接丰富热点话题新闻库,可大大提高热点话题下新闻库的库量级和多样性。 |
