一种基于哈希编码的图像声音检索方法

基本信息

申请号 CN202111599825.6 申请日 -
公开(公告)号 CN114328991A 公开(公告)日 2022-04-12
申请公布号 CN114328991A 申请公布日 2022-04-12
分类号 G06F16/432(2019.01)I;G06F16/483(2019.01)I;G06F16/45(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 李若尘;张世雄;黎俊良;魏文应;龙仕强;安欣赏 申请(专利权)人 深圳龙岗智能视听研究院
代理机构 北京京万通知识产权代理有限公司 代理人 万学堂;王跃交
地址 518116广东省深圳市龙岗区龙城街道腾飞路龙岗创投大厦37楼
法律状态 -

摘要

摘要 一种基于哈希编码的图像声音检索方法。在预处理阶段,首先将声音通过快速傅里叶变换转化为语谱图,同时对转化后的语谱图以及原始的人脸图像进行旋转、对比度变换等数据增强操作;在训练阶段,将之前处理好的人脸图像以及语谱图传入一个经由ImageNet预训练的基于内容分类的神经网络中,自动将人脸和语谱图传递到各自模态的特征提取网络中。相比于传统方法,哈希编码大幅降低了检索消耗的时间,提升了系统执行效率;同时,对语谱图进行对比度增强可以抑制低频噪声,以及采用一个基于内容的样本分类器可以减少人为区分样本出错的概率,本方法在目前公开的测试数据集上,取得了领先的检测水平。