基于解耦译码的视频字幕生成方法和系统专利查询专利号|摘要-满商公司网

基于解耦译码的视频字幕生成方法和系统

基本信息

摘要

摘要	本发明公开了一种基于解耦译码的视频字幕生成方法和系统，属于视频字幕生成领域。1）获取视频的三种模态特征，在每一种模态特征的开头添加“[CLS]”标记；2）利用一个三通道跨模态编码器分别对三种模态特征进行编码；将所有编码块的输出结合在一起作为最终输出，并在最终输出结果中引入重构约束；3）从编码后的模态特征序列的首位“[CLS]”标记提取到三种模态的全局特征，结合历史预测词序列获得细粒度三阶张量，解耦三阶张量得到每种模态下的注意权重；将编码器输出的三种编码后的模态特征与对应模态下的注意权重的乘积作为语境序列特征，引入到解码器的解码过程中，生成新的预测词。