一种字幕生成方法和装置
基本信息
申请号 | CN202111142783.3 | 申请日 | - |
公开(公告)号 | CN113660537A | 公开(公告)日 | 2021-11-16 |
申请公布号 | CN113660537A | 申请公布日 | 2021-11-16 |
分类号 | H04N21/488(2011.01)I;G10L15/26(2006.01)I;G06K9/32(2006.01)I;G06K9/00(2006.01)I | 分类 | 电通信技术; |
发明人 | 殷元江;高发宝;徐立 | 申请(专利权)人 | 北京七维视觉科技有限公司 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 付丽 |
地址 | 100013北京市东城区和平里东街11号3号楼2-A1号 | ||
法律状态 | - |
摘要
摘要 | 本申请提供了一种字幕生成方法和装置,其中,方法包括:检测目标视频中所包含人物的状态和/或目标视频的音频波形幅值,根据目标视频中所包含人物的状态和/或目标视频的音频波形幅值,判断目标视频中是否有在说话的目标人物,若判定目标视频中有在说话的目标人物,则开始获取目标视频的语音识别结果,直至根据目标人物的状态和/或目标视频的音频波形幅值判定目标人物不再说话,最后根据获取的语音识别结果生成目标人物对应的字幕信息。本申请能够基于目标视频中所包含人物的状态和/或目标视频的音频波形幅值,生成目标视频所包含的各个人物分别对应的字幕信息,生成的字幕信息效果更好。 |
