基于情绪识别的文字标点自动添加方法、装置及存储介质

    公开(公告)号:CN114724554A

    公开(公告)日:2022-07-08

    申请号:CN202210380330.2

    申请日:2022-04-12

    发明人: 李蓉

    摘要: 本发明涉及人工智能领域,提出一种基于情绪识别的文字标点自动添加方法,首先实时获取用户的语音,将用户的语音输入预训练的语言分析模型以确定语音的语速、语调和语义,再根据预设的对比规则将语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;若类比结果表示基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与语音的语速、语调和语义相匹配的样本的标点添加准则,而后按照标点添加准则为所述语音添加文字标点,如此,根据音频中不同的情绪准确分析添加何种标点,与传统的语音文字的转换相比,能够提升用户使用体验,更准确的表达音频中的想要表达的意思,提高语音翻译文字的整体精准度。

    一种改进的病理嗓音基音频率提取方法

    公开(公告)号:CN109036472B

    公开(公告)日:2022-05-10

    申请号:CN201810797265.7

    申请日:2018-07-19

    申请人: 天津大学

    发明人: 张涛 武雅琴

    IPC分类号: G10L25/90 G10L25/66 G10L19/02

    摘要: 一种改进的病理嗓音基音频率提取方法:进行信号预处理,包括去直流处理和分帧处理;进行小波包分解及重构,小波包分解是采用Duabeechies系列小波中的db6将分帧处理后的信号进行分解,得到重构所需的信号,分解的层数是根据采样频率和信号基频上限来定;重构是根据分解后的每层信号与所对应的分解前的帧信号的相关性和信号基频范围重构分解前的帧信号;将重构后的帧信号进行HHT变换处理,得到若干个IMF分量,剔出不满足频率条件的IMF分量,再进行重构HHT变换前的分帧信号;对重构HHT变换前的分帧信号进行基频提取。本发明保证提取的病理嗓音基音频率仍然基本保持在原本的基频范围内,保证了嗓音基音频率提取准确率。

    确定音频内容音高偏差的方法及装置

    公开(公告)号:CN108206026B

    公开(公告)日:2021-12-03

    申请号:CN201711269010.5

    申请日:2017-12-05

    发明人: 王国腾

    IPC分类号: G10L25/51 G10L25/90

    摘要: 本申请公开了一种确定音频内容音高偏差的方法及装置。方法包括:采集用户演唱歌曲时的歌声;将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;根据所述人声基频序列确定所述人声基频序列中每个演唱音的基频数值、起始时间和结束时间;根据所述每个演唱音的起始时间、结束时间及所述基频数值确定每个演唱音的用户音高;根据所述每个演唱音的用户音高和所述歌曲对应的音高模板,确定每个相同时间点的用户音高与标准音高之间的音高差,并得到音高差序列。达到了确定用户演唱音频内容音高偏差的目的,进而解决了由于用户无法准确演唱歌曲造成的音高不准,而导致输出的音频也存在音高不准的技术问题。

    一种语音识别方法、装置和用于语音识别的装置

    公开(公告)号:CN113707130A

    公开(公告)日:2021-11-26

    申请号:CN202110945706.5

    申请日:2021-08-16

    发明人: 张弼弘 周盼

    摘要: 本发明实施例提供了一种语音识别方法、装置和用于语音识别的装置。所述方法包括:根据待处理的语音数据中各个说话人的声学特征,对所述语音数据进行切分处理,得到若干子句,每个子句包含一个说话人的语音片段;按照预设标签对所述子句进行归并处理,得到目标子句;对所述目标子句进行语音识别处理,得到所述语音数据的语音识别结果。本发明实施例可以保证每个子句的能量、说话人音调、音色的相对统一,有利于提升语音识别的准确度;并且,本发明实施例进一步还可以按照预设标签对子句进行归并处理,将存在关联关系的子句合并为目标子句,再对目标子句进行语音识别处理,可以进一步提升语音识别的准确度,提高语音识别性能。

    声音阈值的更新方法、装置、计算机设备和存储介质

    公开(公告)号:CN113590868A

    公开(公告)日:2021-11-02

    申请号:CN202110656943.X

    申请日:2021-06-11

    IPC分类号: G06F16/61 G10L17/26 G10L25/90

    摘要: 本申请涉及一种声音阈值的更新方法、装置、计算机设备和存储介质。所述方法包括:从目标存储空间获取用于表征待检测设备的声音信号对应的电信号的声音数据,根据声音数据确定多个电信号特征值,并根据多个电信号特征值确定用于表征多个电信号特征值的数据特性的目标特征值,进而根据目标特征值确定第二声音阈值,以将待检测设备当前的第一声音阈值更新为第二声音阈值,进而实现用于判断待检测设备的声音数据是否异常的声音阈值的自动更新,不依赖于操作人员的主观判断,完全根据在待检测设备运行过程中所获取的声音数据来确定声音阈值,所确定的声音阈值与设备当前的运行状况和/或周围环境更为匹配,提高了所确定的声音阈值的可靠性和精度。

    一种基于数据集的乐音乐器声音中音高和时值的提取方法

    公开(公告)号:CN113205831A

    公开(公告)日:2021-08-03

    申请号:CN202110634335.9

    申请日:2019-07-25

    摘要: 本发明公开了一种基于数据集的乐音乐器声音中音高和时值的提取方法,主要解决现有技术中存在的传统方法在单音识别细分领域中性能表现良好,但在复音识别领域中的性能表现相对较弱的问题。该一种基于数据集的乐音乐器声音中音高和时值的提取方法包括通过选择数字曲谱登记入数字曲谱库;演奏者演奏曲谱登记入数字声音库;将类别标签序列与声音特征匹配形成声音特征‑音乐元素数据集的构建方法;基于数据集对乐音乐器中音高和时值的提取方法及系统。通过上述方案,本发明达到了利用监督机器学习模型提取乐音乐器演奏生成的数字声音信号的时值信息和音高信息,能较好的提取复音中音乐元素的目的,具有很高的实用价值和推广价值。

    音频对齐方法、装置、计算机设备以及可读存储介质

    公开(公告)号:CN109300484B

    公开(公告)日:2021-07-02

    申请号:CN201811066717.0

    申请日:2018-09-13

    发明人: 劳振锋

    摘要: 本发明公开了一种音频对齐方法、装置、计算机设备以及可读存储介质,属于音频处理技术领域。本发明基于第一音频的第一非周期参数和第一能量参数在第一梅尔频谱上确定出第一目标频谱范围,将第一梅尔倒谱参数对应于第一目标频谱范围的倒谱参数处理,便可得到能够实现对齐的第三梅尔倒谱参数,基于同样方法得到第四梅尔倒谱参数,从而节省确定每个音频的单音或和弦的起始时间,再提取每一个单音或和弦的特征值构建特征值矩阵的步骤,进而采用DTW算法对第三梅尔倒谱参数和第四梅尔倒谱参数进行对齐,从而减少了计算量,减少了时间。