-
公开(公告)号:CN114494538A
公开(公告)日:2022-05-13
申请号:CN202011270780.3
申请日:2020-11-13
申请人: 宿迁硅基智能科技有限公司
摘要: 本发明涉及动画数据处理领域,公开了一种语音驱动任意点面数的面部模型和面部模型动画迁移的方法及系统,其技术方案要点是预先生成样本人物语音与对应于头部三维扫描数据的三维点云数据的转化模型;输入任务语音到转化模型中得到任务三维点云数据;在目标三维面部模型上选择第一面部骨骼点,在任务三维点云数据选择与第一面部骨骼点的对应的运动数据;根据任务三维点云数据中的与第一面部骨骼点对应的运动数据,驱动目标三维面部模型上的第一面部骨骼点运动,并带动目标三维面部模型上所有顶点运动,能够提高面部动画的开发效率和可移植性。
-
公开(公告)号:CN114490958A
公开(公告)日:2022-05-13
申请号:CN202011270804.5
申请日:2020-11-13
申请人: 宿迁硅基智能科技有限公司
摘要: 本发明涉及人工智能领域,公开了一种基于数字人技术的人机实时对话方法及系统,其技术方案要点是采集客户语音并根据采集的客户语音生成应答语音;根据应答语音得到运动数据;根据运动数据生成数字人形象动画;显示数字人形象动画并同步播放应答语音,能够不用提前录制和制作客服人物的视频和动画,就能够实时显示数字人形象,并且能够根据客户的语音实时的展示数字人形象动画和应答语音。
-
公开(公告)号:CN113920977A
公开(公告)日:2022-01-11
申请号:CN202111165153.8
申请日:2021-09-30
申请人: 宿迁硅基智能科技有限公司
摘要: 本发明公开了一种语音合成模型、模型的训练方法以及语音合成方法,语音合成模型包括:嵌入模块、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器。对该模型进行训练包括:获取多条情感音频以及与每条情感音频对应的文本;分析情感音频,提取情感音频对应的音素;获取情感音频的真实特征;将真实特征、情感音频对应的音素以及文本输入至初始化语音合成模型完成训练。通过训练完成的语音模型完成语音合成,包括:获取目标情感音频对应的音素以及目标文本;将目标情感音频对应的音素以及目标文本输入至语音合成模型中,得到目标声学特征;将目标声学特征还原成目标文本对应的音频。
-
公开(公告)号:CN113724690A
公开(公告)日:2021-11-30
申请号:CN202111019691.6
申请日:2021-09-01
申请人: 宿迁硅基智能科技有限公司
摘要: 本申请实施例提供了一种PPG特征的输出方法、目标音频的输出方法及装置,所述方法包括:将源音频数据分片输入语音后验图PPG分类网络模型,其中,PPG分类网络模型包括依次连接的抽象映射层、模块层和PPG层,模块层包括至少两个串联的模块,模块中设置单向长短期记忆功能LSTM层,单向LSTM层配置为学习特征之间的全局依赖信息;通过第一缓存区域保留上一片源音频数据在单向LSMT中的状态数据,通过第二缓存区域保留上一片源音频数据的后面n帧数据;根据当前片源音频数据和第一缓存区域以及第二缓存区域中保存的数据,输出当前片源音频数据对应PPG特征。
-
公开(公告)号:CN113593587A
公开(公告)日:2021-11-02
申请号:CN202110902416.2
申请日:2021-08-06
申请人: 宿迁硅基智能科技有限公司
IPC分类号: G10L19/16 , G10L21/0272 , G10L21/055 , H04N19/136 , H04N19/172 , H04N19/30
摘要: 本申请实施例提供了一种语音分离方法及装置、存储介质、电子装置,所述方法包括:获取音频数据和与音频数据同步采集的至少一组视频数据,其中,音频数据中包含至少一个目标角色的混合语音数据;将音频数据按照时域进行切分,同时将视频数据转换为图像序列后提取图像特征向量;将切分后的音频数据和图像特征向量分别进行编码后按照时间信息进行融合,得到混合编码信息;根据混合编码信息输出至少一个目标角色的编码权重;根据至少一个目标角色编码权重和所述频数据输出至少一个目标角色的独立语音数据。
-
公开(公告)号:CN111402869B
公开(公告)日:2023-09-01
申请号:CN201811524605.5
申请日:2018-12-13
申请人: 宿迁硅基智能科技有限公司
摘要: 本发明公开了一种多人声模式人机对话系统,解决了现有语音交互系统发声模式较为单一的问题,其技术方案要点是,调取模块用于调取存储模块内的语音数据并发送至语音交互模块,语音交互模块根据接收的声音信息和语音数据并通过音频输出模块与用户进行语音交互,本发明的多人声模式人机对话系统,使得用户在和语音交互模块进行语音交互的过程中,能够选择不同声音形式的语音数据包,从而使音频输出模块能够以不同声音模式(如不同年龄阶段的人群)与用户交谈,以适应不同的应用场景,更加人性化;音频录入模块能够采集用户的声音信息,音频输出模块能够以语音形式输出语音交互模块回复的内容,从而实现语音交互模块与用户之间的语音交互。
-
公开(公告)号:CN115272537A
公开(公告)日:2022-11-01
申请号:CN202210723651.8
申请日:2021-08-06
申请人: 宿迁硅基智能科技有限公司
摘要: 本申请实施例提供了一种基于因果卷积的音频驱动表情方法及装置,所述方法包括:对获取的目标音频数据进行特征提取,得到目标音频特征向量;将目标音频特征向量和目标标识输入音频驱动动画模型;将目标音频特征向量输入包含多层卷积层的音频编码层,根据上一层t时刻和t‑n时刻之间的输入特征向量确定下一层(2t‑n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将目标标识输入独热编码层进行二进制向量编码,得到目标标识编码特征;根据目标音频编码特征和目标标识编码特征,通过音频驱动动画模型输出目标音频数据对应的混合变形值。
-
公开(公告)号:CN113903003B
公开(公告)日:2022-07-29
申请号:CN202111205257.7
申请日:2021-10-15
申请人: 宿迁硅基智能科技有限公司
摘要: 本申请实施例提供了一种事件发生概率的确定方法、存储介质及电子装置,属于音频数据识别技术领域,所述方法包括:通过拾音设备获取目标区域的音频数据,根据所述音频数据与所述判定条件,确定第一独立事件和/或第二独立事件;在确定发生所述第一独立事件和所述第二独立事件的情况下,通过所述拾音设备分别确定所述第一独立事件的方向信息和所述第二独立事件的方向信息,根据所述第一独立事件确定第一概率值,并根据所述第二独立事件确定第二概率值;根据所述第一独立事件的方向信息和所述第二独立事件的方向信息确定所述第一独立事件和所述第二独立事件的方向偏差;根据第一概率值、第二概率值以及方向偏差确定完整事件发生的概率。
-
公开(公告)号:CN110677498B
公开(公告)日:2022-07-26
申请号:CN201911022090.3
申请日:2019-10-25
申请人: 宿迁硅基智能科技有限公司
发明人: 司马华鹏
IPC分类号: H04L67/141 , H04L51/04 , H04L67/146
摘要: 本发明公开了一种人车交互方法及系统,解决了即时联系车主又不会泄露车主信息的技术问题,其技术方案要点是通过云端服务器建立与第一终端的沟通,然后云端服务器再为第一终端和第二终端建立沟通,既解决了第一终端和第二终端的沟通问题,也很好的保护了第二终端的隐私。
-
公开(公告)号:CN113609819B
公开(公告)日:2022-06-17
申请号:CN202110902436.X
申请日:2021-08-06
申请人: 宿迁硅基智能科技有限公司
IPC分类号: G06F40/126 , G06F40/211 , G06F40/289 , G06K9/62 , G06N3/04
摘要: 本申请实施例提供了一种标点符号确定模型及确定方法,所述模型包括:嵌入查找层,配置为将输入文本中的每个字符转换为字符嵌入向量;深度学习层,包括线性变化单元与遗忘门单元,遗忘门单元配置为,根据当前时序对应的字符嵌入向量得到遗忘门结果;深度学习层配置为,对不同时序对应的多个字符嵌入向量进行并行处理以得到不同时序对应的多个输出结果,并根据多个输出结果输出与输入文本对应的第一特征向量;条件随机场层,配置为根据第一特征向量确定输入文本的每个字符对应的符号标签,其中,符号标签用于指示对应字符后面的标点符号。解决了相关技术中无法快速有效地实现语音识别后的文本中的标点符号预测的问题。
-
-
-
-
-
-
-
-
-