一种基于哈希编码的图像声音检索方法专利查询专利号|摘要-满商公司网

一种基于哈希编码的图像声音检索方法

基本信息

摘要

摘要	一种基于哈希编码的图像声音检索方法。在预处理阶段，首先将声音通过快速傅里叶变换转化为语谱图，同时对转化后的语谱图以及原始的人脸图像进行旋转、对比度变换等数据增强操作；在训练阶段，将之前处理好的人脸图像以及语谱图传入一个经由ImageNet预训练的基于内容分类的神经网络中，自动将人脸和语谱图传递到各自模态的特征提取网络中。相比于传统方法，哈希编码大幅降低了检索消耗的时间，提升了系统执行效率；同时，对语谱图进行对比度增强可以抑制低频噪声，以及采用一个基于内容的样本分类器可以减少人为区分样本出错的概率，本方法在目前公开的测试数据集上，取得了领先的检测水平。