音频处理方法及装置
    11.
    发明授权

    公开(公告)号:CN112151055B

    公开(公告)日:2024-04-30

    申请号:CN202011022357.1

    申请日:2020-09-25

    摘要: 本说明书提供音频处理方法及装置,其中所述音频处理方法包括:获取待检测音频文件;对所述待检测音频文件进行分帧处理获得多个音频帧,并在所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧;根据所述目标音频帧和所述目标音频帧的下一音频帧生成频率幅度谱,以及根据所述目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱;将所述频率幅度谱和所述参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件的喷麦音频帧。

    一种视频处理方法与装置
    12.
    发明授权

    公开(公告)号:CN112132750B

    公开(公告)日:2024-04-09

    申请号:CN202011022341.0

    申请日:2020-09-25

    IPC分类号: G06T3/4038 G06T7/11

    摘要: 本发明提供一种视频处理方法与装置,其中,所述方法包括:采集对待拼接图形的拼接视频,从所述拼接视频中提取关键帧并对所述关键帧进行预处理;将预处理后的所述关键帧输入实例分割模型,由实例分割模型得到识别结果,其中,所述识别结果中包含识别出的图像块;确定所述识别结果中至少一个目标对象对应的图像块的相对位置,由所述相对位置确定所述至少一个目标对象的拼接结果;在所述至少一个目标对象的拼接结果与预定相对位置相同的情况下,保存所述拼接结果,给出拼接提示。本发明提供的一种视频处理方法,通过对关键帧进行识别,确定所述关键帧中目标对象的相对位置,保证了可以对所述关键帧中的目标对象进行快速、准确的识别。

    音频处理方法及装置
    13.
    发明授权

    公开(公告)号:CN112259083B

    公开(公告)日:2024-02-13

    申请号:CN202011111002.X

    申请日:2020-10-16

    摘要: 本说明书提供音频处理方法及装置,其中所述音频处理方法包括:获取目标音频片段,以及与所述目标音频片段对应的目标文本;将所述目标音频片段转换为待处理子文本,并在所述目标文本中确定与所述待处理子文本匹配的目标子文本;利用预设的音频处理算法对所述目标音频片段和所述目标子文本进行处理,获得所述目标音频片段对应的区别特征;根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对,并将所述样本对写入样本集。

    视频处理方法及装置
    14.
    发明公开

    公开(公告)号:CN116208803A

    公开(公告)日:2023-06-02

    申请号:CN202111445457.X

    申请日:2021-11-30

    摘要: 本申请提供视频处理方法、系统及装置,其中所述视频处理方法包括:获取待处理视频以及所述待处理视频对应的描述信息;将所述待处理视频输入识别模型进行处理,获得包含时间戳的目标视频;基于所述时间戳对所述目标视频进行处理,得到至少一个视频片段,以及根据所述描述信息确定视频标签集;构建各个视频片段对应的视频特征,并根据所述视频特征在所述视频标签集中选择各个视频片段对应的目标视频标签,这样使待处理视频实现分段处理,减少视频处理资源浪费,减轻系统计算压力,使视频实现自动化处理,减少人工成本,高效且精确的完成视频处理。

    语义理解模型的训练方法及装置
    15.
    发明公开

    公开(公告)号:CN116186529A

    公开(公告)日:2023-05-30

    申请号:CN202111425718.1

    申请日:2021-11-26

    发明人: 刘洋 柳景明 赵薇

    摘要: 本说明书提供语义理解模型的训练方法及装置,其中所述语义理解模型的训练方法包括:获取句单元样本以及所述句单元样本对应的语义正样本;在预设的语义词库中筛选与所述句单元样本对应的语义负样本,并构建所述语义正样本和所述语义负样本分别对应的语义特征;将所述语义特征输入至语义理解模型进行处理,获得所述语义正样本和所述语义负样本分别对应的语义分值;基于所述语义分值计算损失值,并根据所述损失值调整出满足训练停止条件的目标语义理解模型。

    视频编码方法及装置
    16.
    发明公开

    公开(公告)号:CN116137658A

    公开(公告)日:2023-05-19

    申请号:CN202111363226.4

    申请日:2021-11-17

    摘要: 本说明书提供视频编码方法及装置,其中视频编码方法包括:可以先基于第一视频帧的帧类型,确定对应的目标预测系数,然后可以获取第一视频帧中第一宏块的第一帧内预测损失值、第一帧间预测损失值和第一运动向量,后续基于目标预测系数、第一帧内预测损失值、第一帧间预测损失值和第一运动向量,可以确定第一宏块的量化参数偏移值,进而确定第一宏块的目标量化参数,并基于该目标量化参数对第一宏块进行编码。如此,可以联合使用第一视频帧的帧类型对应的预测系数,以及帧间的内容变化、帧内的纹理特征,计算出第一宏块的量化参数偏移值,以确定出最终的量化参数进行编码,对宏块的量化进行精细的控制,提高视频编码效果。

    口语评测模型的训练方法及装置
    17.
    发明公开

    公开(公告)号:CN116072150A

    公开(公告)日:2023-05-05

    申请号:CN202111282224.2

    申请日:2021-11-01

    IPC分类号: G10L25/60 G10L25/27

    摘要: 本说明书提供口语评测模型的训练方法及装置,其中所述口语评测模型的训练方法包括:获取样本音频以及所述样本音频对应的样本口语分值;根据所述样本音频确定音频特征,并将所述音频特征输入至口语评测模型进行处理,获得评测口语分值以及口语等级概率分布;根据所述评测口语分值和所述样本口语分值计算第一损失值,以及所述口语等级概率分布和所述样本口语分值计算第二损失值;基于所述第一损失值和所述第二损失值对所述口语评测模型进行调参,并继续训练直至满足训练停止条件。

    语音合成方法及装置
    18.
    发明公开

    公开(公告)号:CN116072094A

    公开(公告)日:2023-05-05

    申请号:CN202111283085.5

    申请日:2021-11-01

    发明人: 杨明祺 张杰 马楠

    IPC分类号: G10L13/02 G10L13/08

    摘要: 本说明书提供语音合成方法及装置,其中所述语音合成方法包括:获取包含主音素和副音素的拼音信息;将所述主音素和所述副音素输入至语音合成模型,并通过所述语音合成模型中的编码器进行处理,获得主音素编码向量和副音素编码向量;对所述主音素编码向量和所述副音素编码向量进行拼接,根据拼接结果生成基准音素编码向量和辅助音素编码向量;通过所述语音合成模型中的解码器对所述基准音素编码向量和所述辅助音素编码向量进行处理,并根据解码处理结果生成所述拼音信息对应的音频片段。

    文本数据的批改方法、装置、电子设备和存储介质

    公开(公告)号:CN115906822A

    公开(公告)日:2023-04-04

    申请号:CN202110921318.3

    申请日:2021-08-11

    IPC分类号: G06F40/284 G06F18/22

    摘要: 本公开公开了一种文本数据的批改方法、装置、电子设备和存储介质。其中,方案为:获取待处理的文本数据,其中,所述文本数据中包含题目信息及作答信息;将所述题目信息中的文本进行切词处理,以获取所述题目信息对应的第一词元组;根据所述第一词元组分别与各个参考词元组间的第一匹配度,确定目标参考词元组;根据所述参考词元组与文本间的对应关系,确定所述目标参考词元组对应的目标文本;基于所述目标文本,对所述待处理的文本数据中的作答信息进行批改。由此,通过对待处理的文本数据自动进行处理,即可实现文本数据的自动批改,提高了批改效率和准确性。

    知识推荐方法、装置、电子设备及存储介质

    公开(公告)号:CN115905669A

    公开(公告)日:2023-04-04

    申请号:CN202110945103.5

    申请日:2021-08-17

    摘要: 本公开提供了知识推荐方法、装置、电子设备及存储介质,涉及人工智能技术领域。具体实现方案为:获取候选知识点集合;针对候选知识点集合中的每个候选知识点,确定在设定的多个评价因素上的评价信息;根据每个候选知识点分别在多个评价因素上的评价信息,采用多因素决策模型确定每个候选知识点的推荐指数;根据候选知识点集合中每个候选知识点的推荐指数,从候选知识点集合中确定目标推荐知识点,并对目标推荐知识点进行推荐,由此,在知识推荐时考虑了知识点的多个评价因素,提高了知识推荐的效果。