多模态语音唤醒方法、装置及计算机可读存储介质
基本信息
申请号 | CN202210098130.8 | 申请日 | - |
公开(公告)号 | CN114220420A | 公开(公告)日 | 2022-03-22 |
申请公布号 | CN114220420A | 申请公布日 | 2022-03-22 |
分类号 | G10L15/02(2006.01)I;G10L15/22(2006.01)I;G10L15/25(2013.01)I | 分类 | 乐器;声学; |
发明人 | 俞瑞华;陈铖彬;郭永利;柳文斌 | 申请(专利权)人 | 广汽丰田汽车有限公司 |
代理机构 | 深圳市世纪恒程知识产权代理事务所 | 代理人 | 王径武 |
地址 | 510000广东省广州市南沙区黄阁镇市南大道8号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种多模态语音唤醒方法、装置及计算机可读存储介质,所述多模态语音唤醒方法包括以下步骤:获取用户的脸部图像特征,获取来自用户的语音信息;基于所述脸部图像特征或语音信息,判断所述用户是否有语音交互意图;若所述脸部图像特征和语音信息中的任一项满足预设交互条件,则判定所述用户有语音交互意图,并唤醒预设语音助手。通过实施本发明,能够识别用户的脸部图像特征,结合用户发出的语音信息,在收音环境嘈杂的情况下也能判断出用户是否有交互意图,从而可以选择是否唤醒语音助手,在人机交互的过程中减少了外界环境的干扰,增强了人机交互的体验,保证了语音交互时的高唤醒率。 |
