专利检索 ipc:"G10L21/0356" 第 1 页

1.

发明公开
一种用于AR眼镜的远程语音交互方法及系统无效

公开(公告)号：CN118098253A

公开(公告)日：2024-05-28

申请号：CN202410446471.9

申请日：2024-04-15

申请人： 东莞市三奕电子科技股份有限公司

发明人： 汪谦益 , 徐力 , 何松青 , 柒树培

IPC分类号： G10L21/01 , G10L21/0356 , H04N21/233 , H04N21/234 , H04N21/439 , H04N21/44 , H04N21/488

摘要： 本申请涉及增强现实的技术领域，公开了一种用于AR眼镜的远程语音交互方法及系统，所述方法包括获取影像录制数据和音频录制数据并输入至影音分析模型中，分析所述音频录制数据，生成若干音源文本信息并标记对应的音源标识信息和时间轴信息；分析所述影像录制数据，识别若干音频来源图像，基于各音频来源图像的动作特征和各音源文本信息的时间轴信息，将音源标识信息与音频来源图像关联；基于各音频来源图像分析对应的音源位置信息，基于各音源位置信息和对应的音源文本信息，生成字幕投影数据并发送至显示组件；本申请具有提高听力辅助产品的语音信息获取效率的效果。

2.

发明公开
数据处理方法、装置及设备审中-实审

公开(公告)号：CN117612556A

公开(公告)日：2024-02-27

申请号：CN202311554838.0

申请日：2023-11-21

申请人： 支付宝(杭州)信息技术有限公司

发明人： 吕安旗 , 王志铭

IPC分类号： G10L25/51 , G10L21/0356 , G10L15/26 , G10L21/01

摘要： 本说明书实施例提供了一种数据处理方法、装置及设备，其中，该方法包括：基于预设时间步长对待识别的音频数据进行文本识别处理，在当前时间步长对应的候选识别序列包含预设关键字符，且当前时间步长对应的字符包含识别概率大于预设概率阈值的空字符的情况下，基于预设关键字符对应的预设分值、预设关键字符权重，对当前时间步长对应的候选识别序列的识别分值进行更新处理，基于更新后的当前时间步长对应的候选识别序列的识别分值，确定当前时间步长对应的识别序列，继续确定当前时间步长的下一个时间步长对应的识别序列，得到最后一个时间步长对应的识别序列，基于最后一个时间步长对应的识别序列的识别分值，确定与音频数据对应的文本识别结果。

3.

发明公开
语音数据处理方法、装置、计算机设备和存储介质审中-实审

公开(公告)号：CN117351928A

公开(公告)日：2024-01-05

申请号：CN202210762067.3

申请日：2022-06-29

申请人： 大众问问(北京)信息科技有限公司

发明人： 谭应伟 , 丁雪枫

IPC分类号： G10L13/02 , G10L13/06 , G10L13/08 , G10L21/013 , G10L21/0356 , G10L25/87

摘要： 本申请涉及一种语音数据处理方法、装置、计算机设备和存储介质。该方法包括：获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容；从各语音数据中提取得到对应的语音特征；根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果；根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段；将各语音片段进行拼接，得到语音说话者对应的目标语音数据。采用本方法能够利用语音数据拼接的方式，通过对至少两种不同的语音数据的内容进行拼接，产生了具有新的文本内容的语音数据，提高语音数据的多样性。

4.

发明授权
虚拟对象口型驱动方法、相关装置和介质有权

公开(公告)号：CN116665695B

公开(公告)日：2023-10-20

申请号：CN202310936907.8

申请日：2023-07-28

申请人： 腾讯科技(深圳)有限公司

发明人： 季孝忠 , 朱俊伟 , 罗栋豪 , 邰颖 , 汪铖杰

IPC分类号： G10L21/0356

摘要： 本公开提供了一种虚拟对象口型驱动方法、相关装置和介质。该虚拟对象口型驱动方法包括：获取虚拟对象的面部标识；获取用于驱动虚拟对象的目标语音，目标语音中每个时区对应于虚拟对象的口型驱动视频中的一帧；从目标语音中提取语音特征，并将每个时区的语音特征与时区的位置信息进行编码得到第一编码串；对第一编码串与面部标识进行变换层处理，得到与时区对应的、虚拟对象的表情系数；基于时区对应的表情系数，在位置信息对应的帧中，对虚拟对象进行口型驱动。本公开实施例提高了口型驱动的准确性和时序稳定性。本公开实施例可应用于机器人与数字人等场景。

5.

发明公开
一种艺术体操动作生成方法审中-实审

公开(公告)号：CN116847042A

公开(公告)日：2023-10-03

申请号：CN202310404448.9

申请日：2023-04-11

申请人： 杭州亚体智能科技有限公司

发明人： 刘文明 , 吴吉义 , 应晶 , 杨建波 , 张有健

IPC分类号： H04N5/265 , G10L25/24 , G10L21/0356 , G06N3/0464 , G06N3/08

摘要： 本发明公开了一种艺术体操动作生成方法，包括：对专业的艺术体操运动员进行动作捕捉；先进行音频特征提取，将音频特征分为音频片段；艺术体操动作捕捉视频分为视频片段；将音频片段和体视频片段进行数据归一化，再输入至生成扩散模型中，进行模型训练；对每个艺术体操片段生成的体操动作和音频的适配性进行打分，得分最高的艺术体操片段作为生成片段保留；使用损失函数结合动量梯度下降法算法对数据集的视频进行训练，得到艺术体操动作生成模型，输入音频通过模型得到艺术体操动作视频。本发明使用了生成扩散模型用于艺术体操的，相比于GAN等神经网络模型具有长期建模能力，能够生成长期稳定的动作序列。

6.

发明公开
一种多端共联的局放成像检测系统审中-实审

公开(公告)号：CN116840642A

公开(公告)日：2023-10-03

申请号：CN202310861156.8

申请日：2023-07-13

申请人： 国网四川省电力公司攀枝花供电公司

发明人： 宋云波 , 韩安兵 , 李旭旭 , 方源 , 舒萍 , 雷汉坤 , 罗明川 , 陈寿泉 , 戴炜 , 徐达 , 孙自成 , 李杨攀 , 余抒璇 , 王子逸

IPC分类号： G01R31/12 , G10L25/03 , G10L25/18 , G10L25/51 , G10L21/0216 , G10L21/0356 , G10L21/10

摘要： 本发明公开了一种多端共联的局放成像检测系统，包括：特征数据库模块、客制连接模块、终端共享模块、计算协同模块、空间定位模块、异常数据同步连接模块和声波可视融合模块。通过加入终端连接并客制进入检测逻辑，能够让整个系统，在建立和应用的过程前后，根据用户自身需求和喜好进行终端的分布预设，并匹配相应的计算逻辑，同时，可以实现连接不同的满足需求类型的终端，从而使系统所接入的包括传感器在内的终端，可以更为灵活的更换以及维修，且不会影响设备的运行；以局部放电可视化方式实现设备快速检测和局放位置精准定位，提升电网带电检测水平和检测效率，确保电网设备可靠运行。

7.

发明授权
声波纹直播方法、装置、服务器、客户端设备及存储介质有权

公开(公告)号：CN111383656B

公开(公告)日：2023-05-23

申请号：CN202010187645.6

申请日：2020-03-17

申请人： 广州虎牙科技有限公司

发明人： 刘鑫 , 王涣祺

IPC分类号： G10L21/0356 , H04L65/60 , H04L65/403

摘要： 本申请提供一种声波纹直播方法、装置、服务器、客户端设备及存储介质，涉及互联网应用领域。本申请通过服务器获取同一互动直播间中至少一个主播通过目标客户端设备上传的待直播语音信号，并由服务器基于获取到的待直播语音信号以及每个待直播语音信号的音量信息及主播信息，使生成的待直播音频流中的每个待直播音频帧记录有与音频内容对应的主播信息及音量信息，而后将该待直播音频流传输给该互动直播间下的每个目标客户端设备，由目标客户端设备在对每个待直播音频帧进行音频播放的同时，按照每个待直播音频帧的主播信息及音量信息显示声波纹图案，从而达到音频播放与声波纹显示的同步直播效果，准确表达被播音频与发声主播的关联关系。

8.

发明公开
音频播放方法、装置、设备及存储介质审中-公开

公开(公告)号：CN116095558A

公开(公告)日：2023-05-09

申请号：CN202310081598.0

申请日：2023-01-14

申请人： 武汉智管云科技有限公司

发明人： 邓志涛

IPC分类号： H04R3/00 , G06F3/14 , G06F3/16 , G10L21/0316 , G10L21/0356

摘要： 本发明提供了一种音频播放方法、装置、设备及存储介质。上述音频播放方法包括：在接收到对歌曲文件的播放指令的情况下，获取歌曲文件对应的第一音频、第二音频，以及歌曲文件对应的歌词文本；对第一音频、第二音频、以及收集到的目标用户的人声音频进行混音，生成目标音频；在目标用户佩戴的第一设备中播放目标音频，以及在第二设备中显示歌词文本，以使得目标用户查看歌词文本。本发明中，通过在目标用户佩戴的第一设备中播放对第一音频、第二音频和人声音频进行混音后生成的目标音频，使得目标用户可以通过第一设备获取到歌曲文件的原唱音频，并可以通过第二设备查看歌词文本，以此辅助目标用户表演，提高演出效果，也避免了演出事故的发生。

9.

发明公开
一种面向响度的高效音频控制方法无效

公开(公告)号：CN108711435A

公开(公告)日：2018-10-26

申请号：CN201810541159.2

申请日：2018-05-30

申请人： 中南大学

发明人： 陈明义 , 杨晓静 , 王艳艳

IPC分类号： G10L21/034 , G10L21/0356 , H03G3/32

CPC分类号： G10L21/034 , G10L21/0356 , H03G3/32

摘要： 本发明阐述了一种面向响度的高效音频控制方法。随着数字电视技术的发展，越来越清晰的视频带给观众一场新的视觉体验，不一致的音频响度又使得观众不得不频繁使用遥控器调整音量。为了解决响度差异问题，提出了一种面向响度的高效音频控制方法解决方案，设计了多参数融合的响度控制算法。基于响度的音频AGC算法是对数字音频信号进行响度自动增益控制，测量输入音频响度，结合用户设置的目标响度、动态范围、背景响度测量时间等参数，确定动态增益，最后处理音频信号。有效地将输出音频的响度控制在目标范围内，并且包括噪声在内的背景音不被提升，响度控制速度快，输出音频稳定平衡不生硬，满足人们的听觉感知需要。

10.

发明公开
电视画面和外设声音同步控制方法和装置无效

公开(公告)号：CN106782598A

公开(公告)日：2017-05-31

申请号：CN201611176437.6

申请日：2016-12-15

申请人： 深圳TCL数字技术有限公司

发明人： 全浩伟

IPC分类号： G10L21/0316 , G10L21/0356 , H04N21/43 , H04N21/439 , H04N21/4402

CPC分类号： G10L21/0316 , G10L21/0356 , H04N21/4307 , H04N21/439 , H04N21/440236

摘要： 本发明公开了一种电视画面和外设声音同步控制方法，包括：将目标码流中的图像信号和声音信号解码，提取解码的声音信号在目标时段内声音振幅峰值，并将声音信号传输到外部设备中播放；采集环境声音，并提取目标时段内环境声音振幅峰值；将提取的解码声音振幅峰值与环境声音振幅峰值进行对比，计算电视画面播放与传输至外部设备播放的声音时间差；根据所述时间差控制电视图像信号延时输出。本发明还公开了一种电视画面和外设声音同步控制装置。有效避免现有电视画面和外设声音不同步的情况，提升了用户的视听体验，增强了用户体验度。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类