一种基于房源信息相似度与图片识别的房源去重方法
基本信息
申请号 | CN201811010586.4 | 申请日 | - |
公开(公告)号 | CN109189963A | 公开(公告)日 | 2021-07-06 |
申请公布号 | CN109189963A | 申请公布日 | 2021-07-06 |
分类号 | G06F16/51 | 分类 | 计算;推算;计数; |
发明人 | 张文战;杨丽娟;白峻峰;刘子耀;张凯 | 申请(专利权)人 | 诸葛启航(苏州)科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 100012 北京市朝阳区北苑东路19号院1号楼13层(来广营宏源广兴孵化器A316) | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种基于房源信息相似度与图片识别的房源去重方法,包括以下步骤:步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来等。本发明的优点是:利用elasticsearch模块的快速检索及图片的phash值,可以快速从海量图片中找到重复图片,从而筛选出疑似重复房源,结合房源关键属性,实现精准去重,即使经纪人篡改信息,也能识别出来。 |
