-
公开(公告)号:CN118298845A
公开(公告)日:2024-07-05
申请号:CN202410530115.5
申请日:2024-04-29
申请人: 北京开普云信息科技有限公司
IPC分类号: G10L25/24 , G10L25/30 , G10L25/90 , G10L19/008
摘要: 本申请公开了一种复调音频的音高识别模型的训练方法、装置、介质及设备,属于数据处理技术领域。将训练集中的复调音频的每帧音频数据转换成梅尔频谱图;搭建音高识别模型;利用模型中的Mamba‑UNet对每帧梅尔频谱图进行特征提取,得到第一中间特征;利用模型中的Transformer‑encoder对连续帧的第一中间特征进行分析,得到第二中间特征;利用全连接层对第二中间特征进行处理,得到人声的音高识别结果;根据训练集中的真实音高信息和音高识别结果对音高识别模型进行训练。本申请能在不牺牲全局感受野的情况下实现线性复杂度计算,降低计算成本;还能避免梯度问题,在处理大规模数据时显示出更高的效率和更好的性能。
-
公开(公告)号:CN114896362A
公开(公告)日:2022-08-12
申请号:CN202210398933.5
申请日:2022-04-15
申请人: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC分类号: G06F16/33 , G06F16/35 , G06F16/36 , G06F40/194 , G06F40/211 , G06F40/295 , G06Q50/18
摘要: 本申请公开了一种专利文本的相似度分析方法、装置、存储介质及设备,属于机器学习技术领域。方法包括:从第一专利文本和第二专利文本中提取n个片段组,每个片段组中的两个片段分别来自于两个专利文本中相同的段落;获取分析模型,其包括模型参数相同的n个K‑BERT模型;利用每个K‑BERT模型,将从特定领域筛选的领域命名实体的三元组分别注入到n个片段组中,得到n个句子树;利用每个K‑BERT模型分别对每个句子树进行处理,并输出第一专利文本和第二专利文本的相似度。本申请可以结合特定领域知识进行分析,且三元组的质量较高,避免产生知识噪声,还可以处理n个片段组以提取出更多的核心特征,提高了相似度分析的准确性。
-
公开(公告)号:CN114444470A
公开(公告)日:2022-05-06
申请号:CN202210081976.0
申请日:2022-01-24
申请人: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC分类号: G06F40/211 , G06F40/295 , G06K9/62
摘要: 本申请公开了一种专利文本中的领域命名实体识别方法、装置、介质及设备,属于计算机技术领域。所述方法包括:获取训练数据,训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体;利用训练数据对BART预训练模型进行训练;根据预设的Prompt模板和训练数据生成Prompt数据,其中,Prompt模板是针对同一专利领域中领域命名实体的特点创建的,且不同专利领域的Prompt模板不同;利用Prompt数据对训练后的BART模型进行调优,得到领域命名实体识别模型;利用领域命名实体识别模型识别各个专利文本中的领域命名实体。本申请既降低了专利文本中的领域命名实体的识别难度,也提高了识别的准确率。
-
公开(公告)号:CN116993576B
公开(公告)日:2024-03-08
申请号:CN202310735505.1
申请日:2023-06-21
申请人: 北京开普云信息科技有限公司
IPC分类号: G06T3/04 , G06V40/16 , G06V20/40 , H04N21/2343 , H04N21/4402
-
公开(公告)号:CN114444470B
公开(公告)日:2022-12-02
申请号:CN202210081976.0
申请日:2022-01-24
申请人: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC分类号: G06F40/211 , G06F40/295 , G06K9/62
摘要: 本申请公开了一种专利文本中的领域命名实体识别方法、装置、介质及设备,属于计算机技术领域。所述方法包括:获取训练数据,训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体;利用训练数据对BART预训练模型进行训练;根据预设的Prompt模板和训练数据生成Prompt数据,其中,Prompt模板是针对同一专利领域中领域命名实体的特点创建的,且不同专利领域的Prompt模板不同;利用Prompt数据对训练后的BART模型进行调优,得到领域命名实体识别模型;利用领域命名实体识别模型识别各个专利文本中的领域命名实体。本申请既降低了专利文本中的领域命名实体的识别难度,也提高了识别的准确率。
-
公开(公告)号:CN116993576A
公开(公告)日:2023-11-03
申请号:CN202310735505.1
申请日:2023-06-21
申请人: 北京开普云信息科技有限公司
IPC分类号: G06T3/00 , G06V40/16 , G06V20/40 , H04N21/2343 , H04N21/4402
摘要: 本申请公开了一种视频换脸方法、装置、存储介质及设备,属于图像处理技术领域。所述方法包括:获取源人脸的关键点和待换脸的目标视频;提取目标视频的视频帧序列中目标人脸的关键点,得到第一关键点序列;根据关键点和第一关键点序列计算第二关键点序列,第二关键点序列具有源人脸的面部五官轮廓和脸型的信息,且具有目标人脸在前后帧的面部五官轮廓和脸型的变换信息;根据第一关键点序列和第二关键点序列对视频帧序列中的目标人脸进行面部五官轮廓和脸型调整;利用SimSwap模型将源人脸的人脸特征映射到调整后的视频帧序列中的目标人脸上;将映射后的视频帧序列编码为换脸视频。本申请保证了换脸的相似度,达到了稳定且真实的换脸效果。
-
公开(公告)号:CN118298845B
公开(公告)日:2024-11-01
申请号:CN202410530115.5
申请日:2024-04-29
申请人: 北京开普云信息科技有限公司
IPC分类号: G10L25/24 , G10L25/30 , G10L25/90 , G10L19/008
摘要: 本申请公开了一种复调音频的音高识别模型的训练方法、装置、介质及设备,属于数据处理技术领域。将训练集中的复调音频的每帧音频数据转换成梅尔频谱图;搭建音高识别模型;利用模型中的Mamba‑UNet对每帧梅尔频谱图进行特征提取,得到第一中间特征;利用模型中的Transformer‑encoder对连续帧的第一中间特征进行分析,得到第二中间特征;利用全连接层对第二中间特征进行处理,得到人声的音高识别结果;根据训练集中的真实音高信息和音高识别结果对音高识别模型进行训练。本申请能在不牺牲全局感受野的情况下实现线性复杂度计算,降低计算成本;还能避免梯度问题,在处理大规模数据时显示出更高的效率和更好的性能。
-
公开(公告)号:CN115908662B
公开(公告)日:2024-05-28
申请号:CN202211631657.9
申请日:2022-12-19
申请人: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC分类号: G06T13/40 , G06N3/08 , G06N3/0475 , G06N3/0455 , G06N3/094
摘要: 本申请公开了一种说话人视频的生成模型训练和使用方法、装置及设备,属于机器学习技术领域。方法包括:改进AD‑NeRF模型得到生成模型;利用生成模型处理训练样本中的视频数据和音频数据,得到头部语义编码和躯干语义编码;基于头部神经辐射场中的第一Transformer模块渲染头部语义编码,利用头部神经辐射场中的第一判别器对头部渲染结果和真实头部图像计算头部损失;基于躯干神经辐射场中的第二Transformer模块渲染躯干语义编码,利用躯干神经辐射场中的第二判别器对躯干渲染结果和真实躯干图像计算躯干损失;利用头部损失和躯干损失训练生成模型。本申请能提升表征和图像生成能力,改善躯干模糊的问题。
-
公开(公告)号:CN115908662A
公开(公告)日:2023-04-04
申请号:CN202211631657.9
申请日:2022-12-19
申请人: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC分类号: G06T13/40 , G06N3/08 , G06N3/0475 , G06N3/0455 , G06N3/094
摘要: 本申请公开了一种说话人视频的生成模型训练和使用方法、装置及设备,属于机器学习技术领域。方法包括:改进AD‑NeRF模型得到生成模型;利用生成模型处理训练样本中的视频数据和音频数据,得到头部语义编码和躯干语义编码;基于头部神经辐射场中的第一Transformer模块渲染头部语义编码,利用头部神经辐射场中的第一判别器对头部渲染结果和真实头部图像计算头部损失;基于躯干神经辐射场中的第二Transformer模块渲染躯干语义编码,利用躯干神经辐射场中的第二判别器对躯干渲染结果和真实躯干图像计算躯干损失;利用头部损失和躯干损失训练生成模型。本申请能提升表征和图像生成能力,改善躯干模糊的问题。
-
-
-
-
-
-
-
-