虚拟声学空间中的音频回放调度

    公开(公告)号:CN107211062A

    公开(公告)日:2017-09-26

    申请号:CN201680008711.0

    申请日:2016-02-03

    Abstract: 一种用于处理音频数据的方法,该方法包括:接收对应于多个音频实例的音频数据,音频数据包括以下中的至少一个:(a)被分别记录的来自多个端点的音频数据,或(b)来自对应于多个讲话者的单个端点的并且包括多个讲话者中的每一个的空间信息的音频数据;在虚拟声学空间中渲染音频数据,使得每个音频实例在虚拟声学空间中具有各自不同的虚拟位置;并且将音频实例调度为在至少两个音频实例之间具有重叠的情况下回放,其中至少部分地根据感知激发规则的集合来执行调度。

    用于空间会议回放的优化虚拟场景布局

    公开(公告)号:CN107211061A

    公开(公告)日:2017-09-26

    申请号:CN201680008705.5

    申请日:2016-02-03

    Abstract: 各种公开的实现涉及对涉及多个会议参与者的会议的记录的处理和/或回放。一些实现包括接收或确定会话动态数据。成本函数的一个或多个变量可至少部分地基于会话动态数据。成本函数可以是描述了每个会议参与者在虚拟声学空间中的虚拟会议参与者位置的向量的空间优化成本函数。虚拟声学空间可相对于听众的头部被确定。虚拟会议参与者位置可根据成本函数的解被分配。

    会议词语云
    34.
    发明公开

    公开(公告)号:CN107210036A

    公开(公告)日:2017-09-26

    申请号:CN201680008633.4

    申请日:2016-02-03

    Abstract: 各种公开的实现涉及对涉及多个会议参与者的会议的记录的处理和/或回放。本文公开的一些实现涉及接收对于会议记录的语音识别结果数据,该语音识别结果数据包括多个语音识别格以及语音识别格的多个假设词中的每一个的词语识别置信度分数。对于语音识别格中的假设词可以确定主词候选和替代词假设。可以计算术语频率度量,以用于对主词候选和替代词假设排序。可以根据替代假设列表来对假设词重新评分。

    处理流数据
    35.
    发明公开
    处理流数据 审中-公开

    公开(公告)号:CN119790457A

    公开(公告)日:2025-04-08

    申请号:CN202380062012.4

    申请日:2023-08-22

    Abstract: 本文公开了处理流数据的技术。在一些实施例中,该技术包括获得代表流数据帧的输入数据。该技术可包括基于输入数据识别查询变换、键变换和值变换。该技术可包括更新查询缓冲器、键缓冲器和值缓冲器,使得每个缓冲器均配置为存储与先前流数据帧和该流数据帧相关联的参数。该技术可包括从查询缓冲器中检索一个或多个查询帧。该技术可包括确定查询帧与键缓冲器中的帧的点积以确定一组权重。该技术可包括确定值缓冲器中的帧与该组权重之间的加权和,并利用该加权和来生成流式注意力向量。

    选择用于音频处理的设备的方法、装置和非暂态介质

    公开(公告)号:CN114207712B

    公开(公告)日:2025-03-11

    申请号:CN202080054717.8

    申请日:2020-07-29

    Abstract: 一种用于选择用于音频处理的设备的方法可以涉及从包括至少第一麦克风的第一设备接收第一唤醒词置信度度量并且从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。第一和第二唤醒词置信度度量可以与由第一设备确定的第一多个唤醒词置信度值的第一局部极大值和由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。该方法可以包括将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。

    对于语音和其他音频应用使用通知掩蔽的表示学习

    公开(公告)号:CN119317959A

    公开(公告)日:2025-01-14

    申请号:CN202380031098.4

    申请日:2023-03-28

    Abstract: 一些公开的方法包括由被配置为实现至少一个神经网络的控制系统接收输入音频数据和特征权重,以及由控制系统并至少部分基于输入音频数据和特征权重产生潜在空间嵌入。在一些示例中,输入音频数据对应于输入数学空间,并且潜在空间嵌入可以对应于输入音频数据的未掩蔽部分。根据一些示例,潜在空间嵌入可以是潜在空间中由特征权重指示的输入音频数据的数学表示,该潜在空间是与输入数学空间不同的数学空间。在一些示例中,特征权重可以是或者可以基于掩蔽数据。

    多设备唤醒词检测
    38.
    发明公开

    公开(公告)号:CN114207712A

    公开(公告)日:2022-03-18

    申请号:CN202080054717.8

    申请日:2020-07-29

    Abstract: 一种用于选择用于音频处理的设备的方法可以涉及从包括至少第一麦克风的第一设备接收第一唤醒词置信度度量并且从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。第一和第二唤醒词置信度度量可以与由第一设备确定的第一多个唤醒词置信度值的第一局部极大值和由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。该方法可以包括将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。

    一种在音频电话会议混合系统中的方法、装置和计算机可读介质

    公开(公告)号:CN110072021B

    公开(公告)日:2022-01-07

    申请号:CN201910508336.1

    申请日:2015-02-17

    Abstract: 本发明涉及电话会议中的在感知上连续的混合。一种在音频电话会议混合系统中将多个当前音频上行传输流混合在一起以产生至少一个音频输出流的方法,所述音频电话会议混合系统是混合多个第一音频上行传输输入流以产生用于下行传输到至少一个会议参与者的至少一个音频下行传输输出流的类型,其中所述多个第一音频上行传输输入流包含包括被感测到的音频的音频信息以及相关联的控制信息,其中所述音频上行传输输入流可以潜在地包括连续传输(CTX)流和非连续传输(DTX)流,所述方法包括以下步骤:(a)确定指示每个当前音频上行传输流的可能重要性的冗长量度;以及(b)当至少一个当前音频上行传输流可以包括CTX流时,在混合中利用至少一个CTX流以产生所述至少一个音频输出流。

Patent Agency Ranking