-
公开(公告)号:CN118411511A
公开(公告)日:2024-07-30
申请号:CN202410497977.2
申请日:2024-04-24
申请人: 上海蜜度数字科技有限公司
IPC分类号: G06V10/25 , G06V10/26 , G06V10/764 , G06V10/82 , G06N3/0455
摘要: 本发明提供一种实例分割方法、系统、存储介质及电子设备,所述方法包括以下步骤:对图像进行切片,获取切片图像向量;提取所述切片图像向量的切片特征;获取待检测的实例类别集合;提取所述实例类别集合中每个实例类别的类别特征;对所述切片特征和所述类别特征进行矩阵相乘,选取所述图像中所有实例的总掩码;将所述总掩码分割为各个实例对应的子掩码。本发明的实例分割方法、系统、存储介质及电子设备通过利用文本信息,实现了精准的实例分割。
-
公开(公告)号:CN118364281A
公开(公告)日:2024-07-19
申请号:CN202410409343.7
申请日:2024-04-07
申请人: 上海蜜度数字科技有限公司
发明人: 战保行
IPC分类号: G06F18/214 , G06F18/22 , G06F40/30 , G06F40/295 , G06N3/0455 , G06V20/70
摘要: 本申请提供一种负样本构建方法、模型训练方法、装置、电子设备和介质,包括:获取包含特定场景信息的文本模态的正样本;采用预训练的场景图模型对所述正样本进行解析,以生成对应的场景图;所述场景图包括所述正样本中的若干个关键元素、所述关键元素的关联属性以及所述关键元素之间的相互关系;根据预设规则,在所述关键元素之间和/或所述关联属性之间进行信息交换,以生成与所述正样本结构相似但语义不同的困难负样本。本申请基于场景图指导高质量语义负样本的构建,实现了样本数据增强;增加了训练数据的多样性,提升了模型的训练效果,提高了模型的泛化能力,提高了模型的细粒度表征学习能力,改善了模型在实际应用中的检索准确性和精度。
-
公开(公告)号:CN118351540A
公开(公告)日:2024-07-16
申请号:CN202410449683.2
申请日:2024-04-15
申请人: 上海蜜度数字科技有限公司
摘要: 本申请实施例提供了一种识别结果处理方法、设备及计算机可读介质,本方案,该方案不需要依赖外置的语言模型,而是可以结合原始的输入图像、识别出的文本行位置、文本行内容以及所有识别文本等额外的信息,对候选识别结果的识别质量进行评分,从而实现了从图像和文本两方面,对候选识别结果进行全局(整体的输入图像、所有识别文本)加局部(每条文本行内容、文本行图像以及文本行位置)的筛选,解决了识别性能受限于外置的语言模型的问题,并且有效提高了识别的准确性。
-
公开(公告)号:CN118279801A
公开(公告)日:2024-07-02
申请号:CN202410515554.9
申请日:2024-04-26
申请人: 上海蜜度数字科技有限公司
摘要: 本申请实施例提供了一种视频中车辆品牌识别方法、设备及计算机可读介质,该方案不依赖于预先设置的数据库,因此用户不需要在识别之前在数据库中预先采集并设置需要识别的目标品牌,可以在识别时根据需要输入车辆品牌的文本作为车辆品牌集合,从而灵活控制想要识别的车辆品牌,同时该方案摒弃了现有的目标检测方法,不依赖于车辆或者品牌标识的目标图像匹配,而是通过视觉语言模型融合了整个目标视频的图像信息以及车辆品牌的语义信息,从而基于全局的图像、视频特征和语义特征进行综合识别,提升了识别结果的准确性。
-
公开(公告)号:CN118172259A
公开(公告)日:2024-06-11
申请号:CN202410320991.5
申请日:2024-03-20
申请人: 上海蜜度数字科技有限公司
IPC分类号: G06T5/50 , G06T5/60 , G06N3/0455
摘要: 本申请提供一种低光图像增强方法、系统、存储介质及电子设备,所述方法包括以下步骤:基于输入的待增强图像获取第一增强信息;基于输入的语音信息获取第二增强信息和第三增强信息;基于所述第一增强信息、所述第二增强信息和所述第三增强信息获取融合信息;基于所述融合信息、所述第二增强信息和所述第三增强信息获取低光增强图像。本申请能够对低光图像进行增强,使图像更加清晰,同时本申请还利用跨模态的信息补充,实现了图像局部关注点的增强效果。
-
公开(公告)号:CN118155605A
公开(公告)日:2024-06-07
申请号:CN202410322392.7
申请日:2024-03-20
申请人: 上海蜜度数字科技有限公司
IPC分类号: G10L15/00 , G10L15/02 , G10L15/16 , G10L15/26 , G10L21/0208 , G06F40/12 , G06F40/263
摘要: 本申请的目的是提供一种语音语种转化的方法及设备,本申请通过对获取到的源语种语音加入噪音后进行提取特征,得到源语种特征;对目标语种进行文本编码,得到标识特征;将源语种特征与标识特征进行拼接,对拼接后的特征进行去噪处理,得到目标特征;对目标特征进行语音空间的转换,得到目标语种语音。从而可以完成任意源语种到任意目标语种的转化。
-
公开(公告)号:CN118484559A
公开(公告)日:2024-08-13
申请号:CN202410639546.5
申请日:2024-05-22
申请人: 上海蜜度数字科技有限公司
IPC分类号: G06F16/583
摘要: 本发明提供一种图像描述筛选方法、系统、存储介质及电子设备,所述方法包括以下步骤:获取图像的多个描述信息;获取所述图像的提示文本,所述提示文本用于指示根据图像和标题给出图像描述;将所述提示文本、所述图像和所述描述信息输入视觉语言模型,获取每个描述信息对应的更新描述信息;基于所述更新描述信息生成对应的重建图像;获取所述重建图像的重建图像特征;获取所述图像的原始图像特征;计算所述原始图像特征和每个重建图像特征的相似度;选取最大相似度对应的描述信息为最优描述信息。本发明的图像描述筛选方法、系统、存储介质及电子设备,基于视觉语言模型实现最优图像描述的筛选,快速高效。
-
公开(公告)号:CN118398026A
公开(公告)日:2024-07-26
申请号:CN202410411337.5
申请日:2024-04-08
申请人: 上海蜜度数字科技有限公司
发明人: 孔欧
摘要: 本发明提供一种人声位置检测方法、系统、存储介质及电子设备,包括:获取声波数据的频域特征和文本信息,分别获取对应的各阶声波查询信息、频域查询信息和文本查询信息;基于各阶声波查询信息、频域查询信息和文本查询信息生成各阶融合信息;对各阶融合信息进行上采样,获取上采样信息;将所述上采样信息输入多层感知机和sigmoid函数,获取人声预测标签;基于所述人声预测标签判断所述声波数据的对应位置处是否有人声。本发明的人声位置检测方法、系统、存储介质及电子设备能够实现人声位置的精准检测,快速高效。
-
公开(公告)号:CN118349945A
公开(公告)日:2024-07-16
申请号:CN202410449686.6
申请日:2024-04-15
申请人: 上海蜜度数字科技有限公司
摘要: 本申请实施例提供了一种合成数据的统一辨别方法、设备及计算机可读介质,该方案不需要限制待辨别的目标数据的模态,无论目标数据中包括了几种类型的模态数据,都可以自动构建统一的模型输入信息,并通过大语言模型以及转换器模型对不同模态数据的特征信息进行提取以及融合后,最终获取用于进行判断的辨别特征信息,进而完成所述目标数据是否为合成数据的辨别过程,整个处理过程不受目标数据模态的限制,因此适用范围广泛、灵活性较高。
-
公开(公告)号:CN118298854A
公开(公告)日:2024-07-05
申请号:CN202410402026.2
申请日:2024-04-03
申请人: 上海蜜度数字科技有限公司
摘要: 本申请提供一种语音识别结果的分析方法、系统及电子设备,所述方法包括:获取语音及语音对应识别出的文本内容;将语音进行声学特征提取,进而得到第一语音特征向量和第二语音特征向量;将文本内容转换为文本特征向量和文本特征矩阵,将文本特征矩阵中第一时刻的向量与文本特征向量进行拼接处理,得到拼接特征向量,对拼接特征向量进行第三数值处理得到第一文本特征向量;将文本特征矩阵中第一时刻的向量进行第四数值处理得到第二文本特征向量;根据第一语音特征向量、第一文本特征向量、第二语音特征向量、第二文本特征向量和文本特征矩阵确定语音识别质量的最终分析结果。本申请实现了自动对语音识别内容的识别质量进行分析。
-
-
-
-
-
-
-
-
-