智能视频处理方法和系统

    公开(公告)号:CN108769576B

    公开(公告)日:2021-02-02

    申请号:CN201810443112.2

    申请日:2018-05-10

    IPC分类号: H04N7/18 H04N5/92 G06F16/78

    摘要: 本发明提供一种智能视频处理方法和系统,具体包括视频监控终端、多个远端机、多个近端机以及云端服务器,本发明从视频监控终端获取监控视频数据,将监控视频数据和当前位置信息、时间信息组合成多维视频帧保存在远端机中,同时从监控视频数据中提取出特征数据并与当前位置信息、时间信息组合成多维特征帧,将多维视频帧与多维特征帧关联并将多维特征帧发送到近端机;近端机将多维特征帧汇聚到云端服务器,以实现特定对象(人员、车辆)的追踪分析。本发明适用于已部署传统视频监控系统但智能化改造难度较大的场景,在不改变现有的视频监控系统部署架构的基础上,实现智能监控的功能,且有效降低了工程改造量和建设成本。

    基于任务的多项式损失提升多语言元学习语音识别方法

    公开(公告)号:CN116229948A

    公开(公告)日:2023-06-06

    申请号:CN202211655769.8

    申请日:2022-12-22

    IPC分类号: G10L15/06 G10L15/00

    摘要: 本发明提供一种基于任务的多项式损失提升多语言元学习语音识别方法。该方法包括:步骤1:初始化语音识别模型,输入原始语音特征序列;步骤2:从多语言数据集中抽取任务Ti,将Ti分为支持集和查询集;步骤3:计算Ti的ASR损失,使用梯度下降得到在支持集上更新后的参数θi;步骤4:使用在支持集上更新后的参数θi在查询集上计算查询损失步骤5:根据Ti的计算得到Ti的多项式损失;步骤6:重复N次步骤2至步骤5,计算得到N个任务对应的多项式损失;步骤7:基于所有任务对应的多项式损失来更新语音识别模型参数θ;步骤8:重复步骤2至步骤7,直至更新后的语音识别模型fθ满足给定要求。

    一种可视化人声分离系统、方法以及装置

    公开(公告)号:CN114464198A

    公开(公告)日:2022-05-10

    申请号:CN202111437237.2

    申请日:2021-11-30

    摘要: 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。