-
公开(公告)号:CN117197821A
公开(公告)日:2023-12-08
申请号:CN202311223445.1
申请日:2023-09-21
申请人: 成都开心音符科技有限公司
发明人: 杨沛
IPC分类号: G06V30/304 , G06V30/19 , G06V30/148 , G06V30/26 , G06V10/82
摘要: 本发明公开了一种OCR识别乐谱的方法与装置,该方法首先对输入的乐谱图像进行水平校正,确保乐谱的线条水平,同时通过形态学变换、灰度化、去噪、滤波和二值化等一系列图像处理技术,提高图像的清晰度。接着,基于y轴的1维向量,对乐谱图像进行字符分割,并利用边缘检测算法进一步提取字符边缘。为了分类乐谱中的各种字符,方法涉及到对tab线、旋律、歌词、节奏线、指板和和弦等关键元素的定位和分类。字符的识别主要基于深度学习中的神经网络技术,如卷积神经网络(CNN)和长短时记忆网络(LSTM),实现对简谱数字、和弦名称等的高准确度识别。最终,识别出的乐谱信息将以文本格式输出,为后续音乐分析和应用提供准确数据。
-
公开(公告)号:CN115346551A
公开(公告)日:2022-11-15
申请号:CN202210954393.4
申请日:2022-08-10
申请人: 成都开心音符科技有限公司
发明人: 苟志云
摘要: 本申请涉及音频处理技术领域,尤其涉及一种基于多任务学习的音乐结构分析方法及装置,其方法包括获取音频数据并预处理,得到目标音频数据;提取目标音频特征;调用目标神经网络模型,通过输入目标音频特征,输出音频段落的边界概率值以及标签概率值;基于预设的确定规则,在该音频段落的所有所述边界概率值和所述标签概率值中确定目标边界值和目标标签值,并依据所述目标边界值和目标标签值确定该音频段落的目标边界和目标标签,通过对音乐的段落边界和段落标签进行多任务学习识别,解决了现有方案对人工经验特征及其他媒体特征数据的限制和依赖,减少了工程上的工作量以及对先验知识的要求,同时能够提升音乐结构段落分割的精度。
-
公开(公告)号:CN117198252A
公开(公告)日:2023-12-08
申请号:CN202311238966.4
申请日:2023-09-25
申请人: 成都开心音符科技有限公司
发明人: 马星宇
IPC分类号: G10H1/00
摘要: 本发明公开了一种基于歌词和旋律的端到端音乐音频生成的方法,涉及多媒体内容处理技术领域。该方法包括对音频文件、音乐的原始信息以及音乐评论信息进行处理,将提取音频文件中的歌词和旋律并将信息进行合并,将处理后的音乐原始信息、合并后的音频信息和音乐评论信息进行特征融合,将特征融合后的信息输入模型进行训练,经模型后输出隐层特征并经过声音信号模型语音分析合成系统输出wav格式音频,优化了现有直接生成音频的音乐生成模型的输入端,并将文本转语音或者歌声合成的思想用到了音乐生成领域,采用更精细的数据处理方式,让数据的分布尽量集中,从而使得模型更容易收敛。
-
公开(公告)号:CN115331703A
公开(公告)日:2022-11-11
申请号:CN202210954394.9
申请日:2022-08-10
申请人: 成都开心音符科技有限公司
发明人: 何朋
摘要: 本申请涉及音频处理技术领域,尤其涉及一种歌曲人声检测方法及装置,其方法包括获取待提取人声的音频数据,并对所述音频数据进行预处理;依据预设的特征提取策略提取预处理后的所述音频数据的音频特征;依据所述音频特征以及预设的人声识别模型,确定所述音频数据中每一音频帧为人声的概率值;当所述概率值达到预设的概率阈值时,则该概率值所对应的音频帧为人声帧;依据所述概率值和所述概率阈值确定所述音频数据中所有的所述人声帧,并确定所有的所述人声帧中时间序列为连续性关系的目标人声帧;依据所有的所述目标人声帧确定所述音频数据中的目标人声音频片段,用户可选择所需的人声音频片段用于后续编辑。
-
公开(公告)号:CN117198251A
公开(公告)日:2023-12-08
申请号:CN202311223447.0
申请日:2023-09-21
申请人: 成都开心音符科技有限公司
发明人: 杨沛
IPC分类号: G10H1/00
摘要: 本发明公开了一种音乐旋律生成方法,所述方法包括:已有歌曲音频进行转换成音高序列、进行音符分段,提取出主旋律,所述已有歌曲音频进行频谱分析,识别音频中的音高,提取出和声,所述已有歌曲音频进行特征提取,训练分类器,进行风格识别,所述已有歌曲音频进行特征提取,比较所述特征,确定出结构信息;将所述和声、风格信息和结构信息作为生成的模型条件,进行模型训练;所述模型结合音乐专家规则;所述模型训练完毕后可以根据和声、风格信息和结构信息来生成主旋律。本发明将“和声及歌曲结构”作为生成条件,在已经确定的和声的基础上,模型会在对应的歌曲结构部分生成对应的旋律,从而可控的生成一整首歌的旋律。
-
公开(公告)号:CN117198250A
公开(公告)日:2023-12-08
申请号:CN202311223443.2
申请日:2023-09-21
申请人: 成都开心音符科技有限公司
发明人: 苟志云
摘要: 本发明公开了一种针对歌唱人声旋律转录的方法及装置,涉及人声旋律转录技术领域,所述音频预处理是从本地文件或者超文本传输协议请求中读取音频数据,并使用公开工具转码为单通道音频数据,然后分离人声和伴奏,最后对人声音频分段;通过前置分离人声音轨,提取突出基频的语音信号特征,输入神经网络模型,对模型的输出结果进行简单的后处理步骤,得到初步的音符预测结果,经过音符节奏量化操作,得到一个完整的乐谱信息;采用新颖的频谱处理方法来表征输入特征,使用自注意力机制来学习上下文信息,利用每段乐谱排列信息校正输出结果,同时采用了简单有效的后处理逻辑,大幅提升人声音乐转录的准确性。
-
公开(公告)号:CN115329125A
公开(公告)日:2022-11-11
申请号:CN202210954490.3
申请日:2022-08-10
申请人: 成都开心音符科技有限公司
发明人: 马星宇
IPC分类号: G06F16/65 , G06F16/683
摘要: 本申请涉及音频处理技术领域,尤其涉及一种歌曲串烧拼接方法和装置,其方法包括获取N个音频文件,确定每一所述音频文件的特征信息,并依据所述特征信息将所述音频文件进行分类,得到分类后的音频文件集,在同一所述音频文件集中提取每一所述音频文件的副歌音频数据;依据预设的音效处理规则对所述副歌音频数据进行音效处理,得到待拼接的目标歌曲片段,依据所述目标歌曲片段生成目标串烧歌曲;上述技术方案直接使用音频数据,将多个音频文件分类并提取同类别音频文件中的副歌音频数据,依据音效处理规则对副歌音频数据处理,而后将处理后的副歌音频数据进行拼接得到串烧歌曲,该串烧歌曲听感上更加自然,且相较于获取midi数据成本上更低。
-
公开(公告)号:CN118824216A
公开(公告)日:2024-10-22
申请号:CN202411297120.2
申请日:2024-09-18
申请人: 成都开心音符科技有限公司
发明人: 杨沛
IPC分类号: G10H1/00
摘要: 本申请涉及音频处理技术领域,具体提供旋律识别及其模型训练方法、程序产品、设备及存储介质。该旋律识别模型训练方法通过对待训练音频数据进行特征提取,将提取到的待训练特征数据输入到待训练旋律识别模型中,获得模型识别结果;并根据模型识别结果以及待训练音频数据的旋律标注结果,对待训练旋律识别模型的内部参数进行优化,获得经训练的旋律识别模型。由于该待训练旋律识别模型包括条件随机场模型,基于条件随机场模型能够有效地考虑到不同待训练特征数据之间的依赖关系,提高模型识别结果的准确性。基于该旋律识别模型训练方法所获得的旋律识别模型,对待识别的音频数据进行旋律识别,能够获得准确性更高的旋律识别结果。
-
公开(公告)号:CN118762688A
公开(公告)日:2024-10-11
申请号:CN202411244731.0
申请日:2024-09-06
申请人: 成都开心音符科技有限公司
发明人: 苟志云
摘要: 本申请提供了一种声音转换方法、装置、电子设备及计算机可读存储介质,该方法包括:预处理原始音频;提取预处理后的原始音频中的关键特征;通过自回归模型根据关键特征和参考音频,将关键特征转换为参考特征,参考特征为带有参考音频音色和韵律的声学特征;基于参考特征输出目标声音。本申请通过采用自回归模型将原始音频转换为目标声音,可以实现高质量声音转换,显著提升转换声音的音质和音色相似性。
-
-
-
-
-
-
-
-