-
公开(公告)号:CN106031141B
公开(公告)日:2017-12-29
申请号:CN201580010641.8
申请日:2015-02-17
Applicant: 杜比实验室特许公司
CPC classification number: H04M3/568 , G10L15/08 , G10L21/02 , G10L25/78 , G10L25/87 , H04M3/563 , H04M2201/14 , H04R3/005 , H04R2420/01 , H04W52/0229 , Y02D70/23 , Y02D70/25
Abstract: 如下类型的音频会议混合系统中的方法,该类型的音频会议混合系统取得包括混合转换事件的会议参加者的输入音频信息的多个音频输入流,并输出包括输出音频信息的多个音频输出流,该方法混合音频输出流以降低混合转换事件的可检测性的方法,该方法包括以下步骤:(a)确定转换事件将发生;(b)确定掩蔽触发将发生;(c)安排转换事件基本上在掩蔽事件发生时发生。
-
公开(公告)号:CN107211062A
公开(公告)日:2017-09-26
申请号:CN201680008711.0
申请日:2016-02-03
Applicant: 杜比实验室特许公司
Abstract: 一种用于处理音频数据的方法,该方法包括:接收对应于多个音频实例的音频数据,音频数据包括以下中的至少一个:(a)被分别记录的来自多个端点的音频数据,或(b)来自对应于多个讲话者的单个端点的并且包括多个讲话者中的每一个的空间信息的音频数据;在虚拟声学空间中渲染音频数据,使得每个音频实例在虚拟声学空间中具有各自不同的虚拟位置;并且将音频实例调度为在至少两个音频实例之间具有重叠的情况下回放,其中至少部分地根据感知激发规则的集合来执行调度。
-
-
公开(公告)号:CN107210036A
公开(公告)日:2017-09-26
申请号:CN201680008633.4
申请日:2016-02-03
Applicant: 杜比实验室特许公司
IPC: G10L15/18
Abstract: 各种公开的实现涉及对涉及多个会议参与者的会议的记录的处理和/或回放。本文公开的一些实现涉及接收对于会议记录的语音识别结果数据,该语音识别结果数据包括多个语音识别格以及语音识别格的多个假设词中的每一个的词语识别置信度分数。对于语音识别格中的假设词可以确定主词候选和替代词假设。可以计算术语频率度量,以用于对主词候选和替代词假设排序。可以根据替代假设列表来对假设词重新评分。
-
公开(公告)号:CN119790457A
公开(公告)日:2025-04-08
申请号:CN202380062012.4
申请日:2023-08-22
Applicant: 杜比实验室特许公司
Abstract: 本文公开了处理流数据的技术。在一些实施例中,该技术包括获得代表流数据帧的输入数据。该技术可包括基于输入数据识别查询变换、键变换和值变换。该技术可包括更新查询缓冲器、键缓冲器和值缓冲器,使得每个缓冲器均配置为存储与先前流数据帧和该流数据帧相关联的参数。该技术可包括从查询缓冲器中检索一个或多个查询帧。该技术可包括确定查询帧与键缓冲器中的帧的点积以确定一组权重。该技术可包括确定值缓冲器中的帧与该组权重之间的加权和,并利用该加权和来生成流式注意力向量。
-
公开(公告)号:CN114207712B
公开(公告)日:2025-03-11
申请号:CN202080054717.8
申请日:2020-07-29
Applicant: 杜比实验室特许公司
Abstract: 一种用于选择用于音频处理的设备的方法可以涉及从包括至少第一麦克风的第一设备接收第一唤醒词置信度度量并且从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。第一和第二唤醒词置信度度量可以与由第一设备确定的第一多个唤醒词置信度值的第一局部极大值和由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。该方法可以包括将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。
-
公开(公告)号:CN119317959A
公开(公告)日:2025-01-14
申请号:CN202380031098.4
申请日:2023-03-28
Applicant: 杜比实验室特许公司
IPC: G10L25/30 , G10L21/0216
Abstract: 一些公开的方法包括由被配置为实现至少一个神经网络的控制系统接收输入音频数据和特征权重,以及由控制系统并至少部分基于输入音频数据和特征权重产生潜在空间嵌入。在一些示例中,输入音频数据对应于输入数学空间,并且潜在空间嵌入可以对应于输入音频数据的未掩蔽部分。根据一些示例,潜在空间嵌入可以是潜在空间中由特征权重指示的输入音频数据的数学表示,该潜在空间是与输入数学空间不同的数学空间。在一些示例中,特征权重可以是或者可以基于掩蔽数据。
-
公开(公告)号:CN114207712A
公开(公告)日:2022-03-18
申请号:CN202080054717.8
申请日:2020-07-29
Applicant: 杜比实验室特许公司
Abstract: 一种用于选择用于音频处理的设备的方法可以涉及从包括至少第一麦克风的第一设备接收第一唤醒词置信度度量并且从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。第一和第二唤醒词置信度度量可以与由第一设备确定的第一多个唤醒词置信度值的第一局部极大值和由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。该方法可以包括将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。
-
公开(公告)号:CN114175145A
公开(公告)日:2022-03-11
申请号:CN202080054297.3
申请日:2020-07-30
Applicant: 杜比实验室特许公司
Abstract: 一种方法可以涉及从环境中的多个麦克风中的每个麦克风接收输出信号,该多个麦克风中的每个麦克风位于该环境的麦克风位置,该输出信号对应于人的话语。该方法可以涉及至少部分地基于输出信号来确定环境内的区,该区至少具有阈值概率包括该人的位置,并且在该区内生成多个空间变化的注意力信号。每个注意力信号可以由位于该区内的设备生成。每个注意力信号可以指示对应的设备处于该对应的设备正在等待命令的操作模式下,并且可以指示该对应的设备的相关性度量。
-
公开(公告)号:CN110072021B
公开(公告)日:2022-01-07
申请号:CN201910508336.1
申请日:2015-02-17
Applicant: 杜比实验室特许公司
Inventor: R·J·卡特莱特
IPC: H04M3/56
Abstract: 本发明涉及电话会议中的在感知上连续的混合。一种在音频电话会议混合系统中将多个当前音频上行传输流混合在一起以产生至少一个音频输出流的方法,所述音频电话会议混合系统是混合多个第一音频上行传输输入流以产生用于下行传输到至少一个会议参与者的至少一个音频下行传输输出流的类型,其中所述多个第一音频上行传输输入流包含包括被感测到的音频的音频信息以及相关联的控制信息,其中所述音频上行传输输入流可以潜在地包括连续传输(CTX)流和非连续传输(DTX)流,所述方法包括以下步骤:(a)确定指示每个当前音频上行传输流的可能重要性的冗长量度;以及(b)当至少一个当前音频上行传输流可以包括CTX流时,在混合中利用至少一个CTX流以产生所述至少一个音频输出流。
-
-
-
-
-
-
-
-
-