基于多模态数据的烹饪辅助方法、存储介质及电子装置

    公开(公告)号:CN118113887A

    公开(公告)日:2024-05-31

    申请号:CN202211513328.4

    申请日:2022-11-29

    Abstract: 本申请公开了一种基于多模态数据的烹饪辅助方法、存储介质及电子装置,涉及智慧家庭技术领域,该基于多模态数据的烹饪辅助方法包括:获取多模态数据,所述多模态数据包括语音数据和图像数据;根据所述语音数据确定烹饪询问意图;在所述烹饪询问意图为菜品询问意图的情况下,根据所述图像数据确定菜品图像信息;根据所述烹菜品询问意图和所述菜品图像信息确定烹饪辅助信息。通过结合菜品询问意图以及菜品图像信息充分了解用户要解决的关于烹饪菜品的问题,根据菜品询问意图和菜品图像信息提供全面准确的烹饪辅助,并将烹饪辅助信息推送至预设智能终端进行播放,提升用户体验。

    一种在线多输入多输出语音信号的去混响方法及系统

    公开(公告)号:CN118057528A

    公开(公告)日:2024-05-21

    申请号:CN202211448747.4

    申请日:2022-11-18

    Inventor: 栾天祥

    Abstract: 本发明提供一种在线多输入多输出语音信号的去混响方法及系统,该方法包括:对麦克风阵列接收信号进行频域转换,获取多通道语音频域信号;基于多通道语音频域信号的滤波器系数阶数,获取滤波器系数矩阵,根据更新步长,对滤波器系数矩阵进行更新,获取更新后的滤波器系数矩阵;根据更新后的滤波器系数矩阵,对多通道语音频域信号进行去混响处理,获取去混响后的多通道语音频域信号;根据去混响后的多通道语音频域信号和补偿系数,确定多通道语音频域信号去混响结果,其中,补偿系数是通过补偿模型输出得到,补偿模型是由样本误差去混响信号和样本无混响信号,对神经网络进行训练得到。本发明可实时在线去混响,降低运算复杂度,实现计算量可控。

    语音聚类方法、装置、存储介质及电子装置

    公开(公告)号:CN116013315A

    公开(公告)日:2023-04-25

    申请号:CN202211511494.0

    申请日:2022-11-29

    Inventor: 栾天祥

    Abstract: 本申请公开了一种语音聚类方法、装置、存储介质及电子装置,涉及智慧家庭技术领域,该语音聚类方法包括:确定获取的目标语音的语音特征的编码序列;确定编码序列的标签向量,其中,标签向量用于表示目标语音的连续性;将标签向量和编码序列输入第一神经网络模型,得到第一神经网络模型输出的高维特征向量,其中,高维特征向量用于表示发出目标语音的对象所属的类别,第一神经网络模型中包括多层网络编码器;将高维特征向量和高维特征向量的标签输入第二神经网络模型,得到第二神经网络模型输出的目标概率值,其中,目标概率值用于表示目标语音与其他语音属于同一类别的概率,第二神经网络模型中包括多层网络编码器,其他语音是已进行语音类别聚类的语音。

    智能设备的交互方法和装置、存储介质及电子装置

    公开(公告)号:CN116418611A

    公开(公告)日:2023-07-11

    申请号:CN202111662830.7

    申请日:2021-12-30

    Abstract: 本申请公开了一种智能设备的交互方法和装置、存储介质及电子装置,其中,上述方法包括:获取使用对象所发出的目标交互数据,其中,目标交互数据为第一模态的交互数据,目标交互数据用于触发第一设备执行第一交互操作;在根据目标交互数据未获取到与第一交互操作对应的交互参数的情况下,获取与目标交互数据对应的目标参考数据,其中,目标参考数据为第二模态的参考数据,目标参考数据用于辅助确定与第一交互操作对应的交互参数;对目标交互数据和目标参考数据执行融合操作,得到与第一交互操作对应的第一交互参数;按照第一交互参数控制第一设备执行第一交互操作。

Patent Agency Ranking