-
公开(公告)号:CN114332729A
公开(公告)日:2022-04-12
申请号:CN202111678887.6
申请日:2021-12-31
Applicant: 西安交通大学
Abstract: 本发明公开了一种视频场景检测标注方法及系统,根据输入视频、音频和文本嵌入的模态信息源,采用预训练模型获取视频、音频和文本的模态特征,将获取的视频、音频和文本的模态特征进行对齐和融合形成窗口基本跨模态表示,根据多时相注意和相邻窗口之间的差异,将窗口基本跨模态表示演化为自适应上下文感知表示,根据获取的自适应上下文感知表示对场景进行检测,通过窗口属性分类器确定窗口的属性,通过位置偏移回归器在该窗口中获取场景边界的准确位置;基于获取的场景边界,为每个场景指定多个标签实现场景标注,将场景检测归结为窗口属性分类和位置偏移回归,并通过两级分类器的集成学习解决多标签标注问题。通过跨模态线索的统一网络解决错误传播和巨大计算成本问题;将场景检测归结为窗口属性分类和位置偏移回归,并通过两级分类器的集成学习解决多标签标注问题。
-
公开(公告)号:CN114332729B
公开(公告)日:2024-02-02
申请号:CN202111678887.6
申请日:2021-12-31
Applicant: 西安交通大学
Abstract: 本发明公开了一种视频场景检测标注方法及系统,根据输入视频、音频和文本嵌入的模态信息源,采用预训练模型获取视频、音频和文本的模态特征,将获取的视频、音频和文本的模态特征进行对齐和融合形成窗口基本跨模态表示,根据多时相注意和相邻窗口之间的差异,将窗口基本跨模态表示演化为自适应上下文感知表示,根据获取的自适应上下文感知表示对场景进行检测,通过窗口属性分类器确定窗口的属性,通过位置偏移回归器在该窗口中获取场景边界的准确位置;基于获取的场景边界,为每个场景指定多个标签实现场景标注,将场景检测归结为窗口属性分类和位置偏移回归,并通过两级分类器的集成学习解决多标签标注问题。通过跨模态线索的统一网络解决错误传播和巨大计算成本问题;将场景检测归结为窗口属性分类和位置偏移回归,并通过两级分类器的集成学习解决多标签标注问题。
-
公开(公告)号:CN112435264A
公开(公告)日:2021-03-02
申请号:CN202011197268.0
申请日:2020-10-30
Applicant: 西安交通大学
Abstract: 本发明公开了一种基于深度学习的42CrMo单相金相组织分割方法及系统,通过将带有真值标签的42CrMo单相金相组织图像数据库分为训练集和测试集;然后将U‑Net模型中的卷积层增加至六块卷积层,去除U‑Net模型中影像重叠策略Overlap‑tile strategy,在U‑Net模型中增加能够归一化每层网络的输入的归一化处理,得到改进后的U‑Net模型,利用六块卷积层,增加网络的深度更好的提取碳化物颗粒特征,将输入图像删减了影像重叠策略,避免图像重影干涉,更容易获取图像,在精度上更好的提取了碳化物颗粒特征信息,增加批量归一化处理,使得每层网络输入标准化,在一定程度上使得网络的收敛速度更快,进而提高了训练速度,从而有效提高了42CrMo金相图像的研究效率。
-
公开(公告)号:CN111369124A
公开(公告)日:2020-07-03
申请号:CN202010125300.8
申请日:2020-02-27
Applicant: 西安交通大学
Abstract: 本发明公开了一种基于自生成全局特征和注意力的图像美学预测方法,对深度分类网络中的自生成全局特征和注意力机制模块进行优化训练,最小化输入得分分布和预测得分分布的差异,得到预测得分分布和真实得分输入分布的相似度,使用面向有序分类的深度学习网络对图形美学进行评估,采用面向有序分类的混合损失函数,无需手工提取特征时需要的技巧性,发觉隐藏在图像和美学评分之间的关联性,突破对图像美学二分的分类方法;本发明在深度网络中嵌入注意力机制和自生成全局特征,在对图像整体进行评估的同时,重点提取相关的图像元素特和图像整体的全局特征,实现更加精准的图像美学评估。
-
-
-