一种热点信息挖掘方法、装置、计算机设备及存储介质

基本信息

申请号 CN202110169266.9 申请日 -
公开(公告)号 CN112836110A 公开(公告)日 2021-05-25
申请公布号 CN112836110A 申请公布日 2021-05-25
分类号 G06F16/951;G06F16/953;G06F16/906;G06K9/62 分类 计算;推算;计数;
发明人 高登科;徐桢虎;李少博;陈涵宇;余伟 申请(专利权)人 四川封面传媒有限责任公司
代理机构 成都顶峰专利事务所(普通合伙) 代理人 杨国瑞
地址 610000 四川省成都市锦江区红星路二段70号1栋8楼A区
法律状态 -

摘要

摘要 本发明涉及数据挖掘技术领域,公开了一种热点信息挖掘方法、装置、计算机设备及存储介质,可以只从网络公开数据出发,实时爬取多源热榜话题及新闻信息,并利用不良审核和深度去重技术进行新闻信息的筛查和过滤,最终采用热点融合实现热点话题发现,构建热点话题新闻库,从而不仅使挖掘结果具有精度高的特点,还可以大大缩减挖掘过程所依赖的数据量,并具有高可信度、高时效性和非不良性的鲁棒性,能够很好满足真实场景的应用。此外,还可以针对全网实时新闻,通过从文本、图片和视频等多个维度进行新闻与热点话题的多模态匹配,并根据匹配结果直接丰富热点话题新闻库,可大大提高热点话题下新闻库的库量级和多样性。