一种生成视频字幕的方法、装置、电子设备和存储介质
基本信息
申请号 | CN202110616946.0 | 申请日 | - |
公开(公告)号 | CN113365109A | 公开(公告)日 | 2021-09-07 |
申请公布号 | CN113365109A | 申请公布日 | 2021-09-07 |
分类号 | H04N21/2343(2011.01)I;H04N21/4402(2011.01)I;H04N21/488(2011.01)I;H04N21/8547(2011.01)I;G10L15/26(2006.01)I;G06K9/32(2006.01)I;G06K9/34(2006.01)I | 分类 | 电通信技术; |
发明人 | 蒋莹;范红亮;梁家恩 | 申请(专利权)人 | 深圳云知声信息技术有限公司 |
代理机构 | - | 代理人 | - |
地址 | 518057广东省深圳市南山区西丽街道朗山路11号同方信息港C栋6A | ||
法律状态 | - |
摘要
摘要 | 本发明涉及生成视频字幕的方法、装置、电子设备和存储介质,该方法包括:获取需要生成视频字幕的视频和音频流;识别视频的图片流中每一帧图片的目标区域的文本信息;根据文本信息识别音频流得到语音识别结果和对应的时间戳;根据语音识别结果、时间戳和图片帧数生成视频字幕。本申请实施例中通过从视频图片流中的目标区域提取文本信息,即先利用图像识别技术确定目标区域,后确定目标区域的文本信息,可降低其他文字信息对于用户话术焦点的干扰,为自动语音识别提供实时、准确的语言信息,能够实现快速定位当前谈话主题,从而提升语音识别准确率,另外基于音频流确定的语音识别结果和时间戳,可以实时生成视频字幕,因此能够大大提升视频字幕的准确率,改善用户体验。 |
