一种基于房源信息相似度与图片识别的房源去重方法

基本信息

申请号 CN201811010586.4 申请日 -
公开(公告)号 CN109189963A 公开(公告)日 2021-07-06
申请公布号 CN109189963A 申请公布日 2021-07-06
分类号 G06F16/51 分类 计算;推算;计数;
发明人 张文战;杨丽娟;白峻峰;刘子耀;张凯 申请(专利权)人 诸葛启航(苏州)科技有限公司
代理机构 - 代理人 -
地址 100012 北京市朝阳区北苑东路19号院1号楼13层(来广营宏源广兴孵化器A316)
法律状态 -

摘要

摘要 本发明涉及一种基于房源信息相似度与图片识别的房源去重方法,包括以下步骤:步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来等。本发明的优点是:利用elasticsearch模块的快速检索及图片的phash值,可以快速从海量图片中找到重复图片,从而筛选出疑似重复房源,结合房源关键属性,实现精准去重,即使经纪人篡改信息,也能识别出来。