-
公开(公告)号:CN118916518A
公开(公告)日:2024-11-08
申请号:CN202411411688.2
申请日:2024-10-11
IPC分类号: G06F16/738 , G06F16/735 , G06N5/022 , G06F16/783
摘要: 本发明属于数据处理技术领域。提供了一种基于知识增强的视频片段摘要生成方法及系统,抽取视频片段的多个视频帧的信息,得到向量表征集合、物体名称集合、视觉表征集合以及文本表征集合,进一步的得到以物体间常识关系为边的第一常识图、以物体间场景关系为边的第二常识图、以物体间时空关系为边的第三常识图;将第一常识图、第二常识图和第三常识图整合后采用图注意力网络,得到所有物体的表征,将所有物体的表征与向量表征集合拼接成为视频表征,以所述视频表征与提示词文本作为大语言模型的输入,得到视频片段的摘要文本描述;本发明通过融合常识知识、场景知识和时空知识,提升了视频摘要生成的准确性和全面性。
-
公开(公告)号:CN118939682A
公开(公告)日:2024-11-12
申请号:CN202411425826.2
申请日:2024-10-14
IPC分类号: G06F16/2452 , G06F16/242 , G06N5/022
摘要: 本发明提供了一种基于知识引导的层级查询语句意图理解方法及系统,涉及自然语言处理技术领域,所述方法包括,获取查询语句,将查询语句转换为不同层级的语义嵌入向量;将外部知识图谱转化为知识嵌入矩阵,检索知识嵌入矩阵中与各层级的语义嵌入向量最相关的知识嵌入向量,将检索到的知识嵌入向量与对应的语义嵌入向量融合,得到各层级融合后的语义嵌入向量;根据各层级融合后的语义嵌入向量获取权重矩阵,计算权重重分配后的语义嵌入向量;基于注意力机制融合权重重分配后的语义嵌入向量与文本嵌入向量,得到查询语句的精确表征,确定查询语句的意图。本发明能够提高查询语句的理解与表征精准度。
-
公开(公告)号:CN118918521A
公开(公告)日:2024-11-08
申请号:CN202411413830.7
申请日:2024-10-11
申请人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(威海)
IPC分类号: G06V20/40 , G06V10/75 , G06V10/80 , G06V10/46 , G06V10/82 , G06V10/74 , G06N3/0464 , G06N3/042
摘要: 本发明属于目标视频片段定位领域,提供了一种基于多机协同的目标视频片段定位方法及系统,方法包括获取时间同步的多视角的单帧图像;进行各图像的特征匹配,依据特征匹配关系建立不同视角图像之间的对应关系;基于建立的对应关系,进行多视角图像的融合,得到完备的全景视频特征;响应于查询文本,基于全景视频特征,进行目标视频片段定位。本发明通过特征匹配建立不同视角之间的对应关系,利用视角融合剔除重复冗余信息,生成完整的全景视图,实现不同视角的互补,基于视角融合后的视频实现目标视频片段的高效定位;克服了现有技术中多视角视频匹配难、融合差的缺陷。
-
公开(公告)号:CN115272777B
公开(公告)日:2022-12-23
申请号:CN202211169230.1
申请日:2022-09-26
申请人: 山东大学 , 智洋创新科技股份有限公司 , 国网浙江省电力有限公司温州供电公司 , 浙江大华技术股份有限公司 , 华北电力大学(保定) , 山东省计算中心(国家超级计算济南中心)
IPC分类号: G06V10/764 , G06V10/772 , G06V10/774 , G06V10/82 , G06N3/08
摘要: 本发明涉及输电线路巡检技术领域,具体涉及一种面向输电场景的半监督图像解析方法,包括以下步骤:S1:数据预处理:人工标注部分输电线路场景的分类数据集和目标检测数据集;S2:数据集的增广和模型优化训练:使用动态参数混合数据增广框架对有标注数据集进行数据增广和模型优化训练,将参数化后的混合数据增广策略融入到判别模型中;S3:半监督训练方法改良:基于S2中经过动态参数混合数据增广优化的模型,使用基于队列优化的鲁棒半监督训练方法,以最优队列的标签筛选策略替换传统的固定高阈值策略,来筛选高置信度伪标签以计算无监督损失;S4:获取S3中预训练好的模型参数,在输电线路图像解析的下游任务中测试效果。
-
公开(公告)号:CN115272777A
公开(公告)日:2022-11-01
申请号:CN202211169230.1
申请日:2022-09-26
申请人: 山东大学 , 智洋创新科技股份有限公司 , 国网浙江省电力有限公司温州供电公司 , 浙江大华技术股份有限公司 , 华北电力大学(保定) , 山东省计算中心(国家超级计算济南中心)
IPC分类号: G06V10/764 , G06V10/772 , G06V10/774 , G06V10/82 , G06N3/08
摘要: 本发明涉及输电线路巡检技术领域,具体涉及一种面向输电场景的半监督图像解析方法,包括以下步骤:S1:数据预处理:人工标注部分输电线路场景的分类数据集和目标检测数据集;S2:数据集的增广和模型优化训练:使用动态参数混合数据增广框架对有标注数据集进行数据增广和模型优化训练,将参数化后的混合数据增广策略融入到判别模型中;S3:半监督训练方法改良:基于S2中经过动态参数混合数据增广优化的模型,使用基于队列优化的鲁棒半监督训练方法,以最优队列的标签筛选策略替换传统的固定高阈值策略,来筛选高置信度伪标签以计算无监督损失;S4:获取S3中预训练好的模型参数,在输电线路图像解析的下游任务中测试效果。
-
公开(公告)号:CN117611957B
公开(公告)日:2024-03-29
申请号:CN202410077239.2
申请日:2024-01-19
IPC分类号: G06V10/778 , G06V10/774 , G06V10/762 , G06V10/84
摘要: 本发明属于计算机视觉中的图像聚类技术领域,为解决现有图像聚类模型聚类性能低的问题,提供一种基于统一正负伪标签的无监督视觉表征学习方法及系统。其中,基于统一正负伪标签的无监督视觉表征学习方法包括预训练分配正标签的深度聚类模型;利用预训练的深度聚类模型为所有图像样本分配正标签,并从中筛选出一组正标签置信度高于设定阈值的图像样本;其中,将筛选出的图像样本作为有标签的图像样本,剩余的图像样本作为无标签的图像样本;利用预训练的深度聚类模型及所有图像样本再进行半监督调整,利用半监督调整过程中的学习损失对预训练的深度聚类模型进行联合优化训练,其能够在预训练模型的基础上进一步提升聚类性能。
-
公开(公告)号:CN117648429A
公开(公告)日:2024-03-05
申请号:CN202410121781.3
申请日:2024-01-30
IPC分类号: G06F16/332 , G06F16/33 , G06F40/30 , G06N5/04 , G06N3/0464 , G06N3/08
摘要: 本发明属于问答模型技术领域,为解决现有生成答案的准确率低的问题,提供一种基于多模态自适应检索式增强大模型的问答方法及系统。其中,基于多模态自适应检索式增强大模型的问答方法包括接收待回答的问题;基于多模态自适应检索式增强大模型及多模态知识库,生成预测答案;多模态自适应检索式增强大模型包括检索器、检索排序器和生成器;检索器提取问题及多模态知识库中的每个知识对应的多模态融合特征,计算每个知识和问题的相似度,选取TOP‑K知识;根据问题及知识标签,利用检索排序器从TOP‑K知识中判定出与问题相关的知识,得到检索的相关知识;生成器生成预测答案,其能够大大提高了模态问答的检索和生成答案的准确率。
-
公开(公告)号:CN118711168A
公开(公告)日:2024-09-27
申请号:CN202411196066.2
申请日:2024-08-29
摘要: 本发明属于视频数据处理技术领域,为解决数据数量、多样性和质量三者无法同时兼顾的问题,提供了一种基于无标注网络视频数据的多模态预训练方法及系统。其中,基于无标注网络视频数据的多模态预训练方法包括:利用大语言模型和图像‑文本模型对视频数据集进行初步细化,生成初步的训练数据集,再引入噪音控制损失函数下,初步训练视频‑语言大模型,作为前一阶段训练得到的视频‑语言大模型;在前一阶段训练得到的视频‑语言大模型未训练完成时,利用前一阶段训练得到的视频‑语言大模型对视频数据集迭代细化,再引入同样噪音控制损失函数下,迭代训练视频‑语言大模型,直至训练完成。其提高了视频中的语音与字幕对应关系识别准确性。
-
公开(公告)号:CN117648429B
公开(公告)日:2024-04-30
申请号:CN202410121781.3
申请日:2024-01-30
IPC分类号: G06F16/332 , G06F16/33 , G06F40/30 , G06N5/04 , G06N3/0464 , G06N3/08
摘要: 本发明属于问答模型技术领域,为解决现有生成答案的准确率低的问题,提供一种基于多模态自适应检索式增强大模型的问答方法及系统。其中,基于多模态自适应检索式增强大模型的问答方法包括接收待回答的问题;基于多模态自适应检索式增强大模型及多模态知识库,生成预测答案;多模态自适应检索式增强大模型包括检索器、检索排序器和生成器;检索器提取问题及多模态知识库中的每个知识对应的多模态融合特征,计算每个知识和问题的相似度,选取TOP‑K知识;根据问题及知识标签,利用检索排序器从TOP‑K知识中判定出与问题相关的知识,得到检索的相关知识;生成器生成预测答案,其能够大大提高了模态问答的检索和生成答案的准确率。
-
公开(公告)号:CN117611957A
公开(公告)日:2024-02-27
申请号:CN202410077239.2
申请日:2024-01-19
IPC分类号: G06V10/778 , G06V10/774 , G06V10/762 , G06V10/84
摘要: 本发明属于计算机视觉中的图像聚类技术领域,为解决现有图像聚类模型聚类性能低的问题,提供一种基于统一正负伪标签的无监督视觉表征学习方法及系统。其中,基于统一正负伪标签的无监督视觉表征学习方法包括预训练分配正标签的深度聚类模型;利用预训练的深度聚类模型为所有图像样本分配正标签,并从中筛选出一组正标签置信度高于设定阈值的图像样本;其中,将筛选出的图像样本作为有标签的图像样本,剩余的图像样本作为无标签的图像样本;利用预训练的深度聚类模型及所有图像样本再进行半监督调整,利用半监督调整过程中的学习损失对预训练的深度聚类模型进行联合优化训练,其能够在预训练模型的基础上进一步提升聚类性能。
-
-
-
-
-
-
-
-
-