多模态语音唤醒方法、装置及计算机可读存储介质

基本信息

申请号 CN202210098130.8 申请日 -
公开(公告)号 CN114220420A 公开(公告)日 2022-03-22
申请公布号 CN114220420A 申请公布日 2022-03-22
分类号 G10L15/02(2006.01)I;G10L15/22(2006.01)I;G10L15/25(2013.01)I 分类 乐器;声学;
发明人 俞瑞华;陈铖彬;郭永利;柳文斌 申请(专利权)人 广汽丰田汽车有限公司
代理机构 深圳市世纪恒程知识产权代理事务所 代理人 王径武
地址 510000广东省广州市南沙区黄阁镇市南大道8号
法律状态 -

摘要

摘要 本发明公开了一种多模态语音唤醒方法、装置及计算机可读存储介质,所述多模态语音唤醒方法包括以下步骤:获取用户的脸部图像特征,获取来自用户的语音信息;基于所述脸部图像特征或语音信息,判断所述用户是否有语音交互意图;若所述脸部图像特征和语音信息中的任一项满足预设交互条件,则判定所述用户有语音交互意图,并唤醒预设语音助手。通过实施本发明,能够识别用户的脸部图像特征,结合用户发出的语音信息,在收音环境嘈杂的情况下也能判断出用户是否有交互意图,从而可以选择是否唤醒语音助手,在人机交互的过程中减少了外界环境的干扰,增强了人机交互的体验,保证了语音交互时的高唤醒率。