基于解耦译码的视频字幕生成方法和系统
基本信息
申请号 | CN202110967808.7 | 申请日 | - |
公开(公告)号 | CN113423004A | 公开(公告)日 | 2021-09-21 |
申请公布号 | CN113423004A | 申请公布日 | 2021-09-21 |
分类号 | H04N21/435(2011.01)I;H04N21/44(2011.01)I;H04N21/488(2011.01)I;G06K9/00(2006.01)I | 分类 | 电通信技术; |
发明人 | 张天翊;赵洲 | 申请(专利权)人 | 杭州一知智能科技有限公司 |
代理机构 | 杭州求是专利事务所有限公司 | 代理人 | 郑海峰 |
地址 | 311200浙江省杭州市萧山区启迪路198号杭州湾信息港F座7楼 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于解耦译码的视频字幕生成方法和系统,属于视频字幕生成领域。1)获取视频的三种模态特征,在每一种模态特征的开头添加“[CLS]”标记;2)利用一个三通道跨模态编码器分别对三种模态特征进行编码;将所有编码块的输出结合在一起作为最终输出,并在最终输出结果中引入重构约束;3)从编码后的模态特征序列的首位“[CLS]”标记提取到三种模态的全局特征,结合历史预测词序列获得细粒度三阶张量,解耦三阶张量得到每种模态下的注意权重;将编码器输出的三种编码后的模态特征与对应模态下的注意权重的乘积作为语境序列特征,引入到解码器的解码过程中,生成新的预测词。 |
