一种视频字幕生成方法、系统、装置和存储介质
基本信息
申请号 | CN201911000368.7 | 申请日 | - |
公开(公告)号 | CN110933485A | 公开(公告)日 | 2020-03-27 |
申请公布号 | CN110933485A | 申请公布日 | 2020-03-27 |
分类号 | H04N21/439;H04N21/44;H04N21/4402;H04N21/488;G10L15/26 | 分类 | 电通信技术; |
发明人 | 张金良 | 申请(专利权)人 | 天脉聚源(杭州)传媒科技有限公司 |
代理机构 | 广州嘉权专利商标事务所有限公司 | 代理人 | 天脉聚源(杭州)传媒科技有限公司 |
地址 | 310000 浙江省杭州市西湖区转塘科技经济区块16号3幢650室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种视频字幕生成方法、系统、装置和存储介质,所述方法包括获取视频的画面数据流和声音数据流,对所述画面数据流和声音数据流均进行相同的分段处理,分别对各所述声音数据段进行语音识别以及根据各所述文本段,分别在相应的画面数据段生成同步的字幕等步骤。本发明可以将视频信号中的声音数据流自动转换成字幕,并叠加到画面数据流,免去了现有技术中人工打字的过程,降低了使用成本和出错率,而且具有很低的时延,减少对直播的影响;通过对画面数据流和声音数据流进行分段处理,并对分段处理所得的多个声音数据段同时进行语音识别,可以成倍地提高语音识别的效率,进一步降低时延。本发明广泛应用于计算机技术领域。 |
