一种多模态乐曲标题生成方法、装置及存储介质
基本信息
申请号 | CN202110217438.5 | 申请日 | - |
公开(公告)号 | CN112905835A | 公开(公告)日 | 2021-06-04 |
申请公布号 | CN112905835A | 申请公布日 | 2021-06-04 |
分类号 | G06F16/683;G06F16/35;G06F16/65;G06N3/04 | 分类 | 计算;推算;计数; |
发明人 | 尹学渊;马星宇;江天宇 | 申请(专利权)人 | 成都潜在人工智能科技有限公司 |
代理机构 | 成都睿道专利代理事务所(普通合伙) | 代理人 | 贺理兴 |
地址 | 610000 四川省成都市高新区益州大道中段722号1栋1单元12层1210号 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种多模态乐曲标题生成方法、装置及存储介质,包括:获取待生成标题的乐曲文件中的音频数据对应的梅尔频谱特征;通过乐曲特征提取器根据所述梅尔频谱特征生成对应的音频特征向量矩阵;获取所述乐曲文件的文本数据,并输入自回归语言模型;通过特征融合模块获取所述自回归语言模型中预设卷积块层输出的文本向量矩阵,对所述音频特征向量矩阵和所述文本向量矩阵进行几何特性对齐,并映射到同一分布空间后进行拼接,得到对应的融合向量矩阵;通过所述自回归语言模型中预设卷积块层后的各个卷积块层对所述融合向量矩阵进行处理后从输出层输出若干个乐曲标题,所述输出层包括概率输出层和采样算法处理层。 |
