一种生成视频字幕的方法、装置、电子设备和存储介质

基本信息

申请号 CN202110616946.0 申请日 -
公开(公告)号 CN113365109A 公开(公告)日 2021-09-07
申请公布号 CN113365109A 申请公布日 2021-09-07
分类号 H04N21/2343(2011.01)I;H04N21/4402(2011.01)I;H04N21/488(2011.01)I;H04N21/8547(2011.01)I;G10L15/26(2006.01)I;G06K9/32(2006.01)I;G06K9/34(2006.01)I 分类 电通信技术;
发明人 蒋莹;范红亮;梁家恩 申请(专利权)人 深圳云知声信息技术有限公司
代理机构 - 代理人 -
地址 518057广东省深圳市南山区西丽街道朗山路11号同方信息港C栋6A
法律状态 -

摘要

摘要 本发明涉及生成视频字幕的方法、装置、电子设备和存储介质,该方法包括:获取需要生成视频字幕的视频和音频流;识别视频的图片流中每一帧图片的目标区域的文本信息;根据文本信息识别音频流得到语音识别结果和对应的时间戳;根据语音识别结果、时间戳和图片帧数生成视频字幕。本申请实施例中通过从视频图片流中的目标区域提取文本信息,即先利用图像识别技术确定目标区域,后确定目标区域的文本信息,可降低其他文字信息对于用户话术焦点的干扰,为自动语音识别提供实时、准确的语言信息,能够实现快速定位当前谈话主题,从而提升语音识别准确率,另外基于音频流确定的语音识别结果和时间戳,可以实时生成视频字幕,因此能够大大提升视频字幕的准确率,改善用户体验。