一种字幕生成方法和装置

基本信息

申请号 CN202111142783.3 申请日 -
公开(公告)号 CN113660537A 公开(公告)日 2021-11-16
申请公布号 CN113660537A 申请公布日 2021-11-16
分类号 H04N21/488(2011.01)I;G10L15/26(2006.01)I;G06K9/32(2006.01)I;G06K9/00(2006.01)I 分类 电通信技术;
发明人 殷元江;高发宝;徐立 申请(专利权)人 北京七维视觉科技有限公司
代理机构 北京集佳知识产权代理有限公司 代理人 付丽
地址 100013北京市东城区和平里东街11号3号楼2-A1号
法律状态 -

摘要

摘要 本申请提供了一种字幕生成方法和装置,其中,方法包括:检测目标视频中所包含人物的状态和/或目标视频的音频波形幅值,根据目标视频中所包含人物的状态和/或目标视频的音频波形幅值,判断目标视频中是否有在说话的目标人物,若判定目标视频中有在说话的目标人物,则开始获取目标视频的语音识别结果,直至根据目标人物的状态和/或目标视频的音频波形幅值判定目标人物不再说话,最后根据获取的语音识别结果生成目标人物对应的字幕信息。本申请能够基于目标视频中所包含人物的状态和/或目标视频的音频波形幅值,生成目标视频所包含的各个人物分别对应的字幕信息,生成的字幕信息效果更好。