基于AI视觉下的听写交互方法、系统、装置

基本信息

申请号 CN202010668289.X 申请日 -
公开(公告)号 CN112001394A 公开(公告)日 2020-11-27
申请公布号 CN112001394A 申请公布日 2020-11-27
分类号 G06K9/34(2006.01)I 分类 计算;推算;计数;
发明人 高旻昱;范骁骏;侯瑞 申请(专利权)人 上海翎腾智能科技有限公司
代理机构 上海汉声知识产权代理有限公司 代理人 上海翎腾智能科技有限公司
地址 201203上海市浦东新区中国(上海)自由贸易试验区芳春路400号1幢3层
法律状态 -

摘要

摘要 本发明提供了一种基于AI视觉下的听写交互方法、系统、装置,方法包括:S100:实时获取采集的目标图像;S200:构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别目标图像中的动作信息和文字信息;S300:根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;S400:控制播放听写任务的听写内容;S500:控制显示听写任务中的提示内容以及听写结果。本发明通过多个卷积深度神经网络,实现手势与听写设备进行交互,提高识别的准确度,加快识别速度,增强了用户的使用体验。