-
公开(公告)号:CN116246610A
公开(公告)日:2023-06-09
申请号:CN202211727305.3
申请日:2022-12-30
申请人: 山东大学 , 山东正中信息技术股份有限公司
摘要: 本发明涉及基于多模态识别的会议记录生成方法及系统,包括以下步骤:获取会议期间的语音信息并提取声纹特征;若声纹特征在声纹库中,则确定语音信息中说话人的身份并保存语音信息;若声纹特征不在声纹库中,则根据声源定位说话人的位置,根据说话人的面部动作图像和语音信息,确定说话人的身份并将其声纹特征写入声纹库;对语音信息进行语义分析,并标注说话人的身份,输出为文本文件。能够通过说话人的面部动作图像和语音信息进行唇语识别、声源定位以及声纹识别等多模态识别的方式生成会议记录,能够根据不同人员的身份对语音数据进行分类处理,解决了会议结束后需要手动区分会议录音中说话人的身份的痛点,减少了大量的工作量。
-
公开(公告)号:CN116563916A
公开(公告)日:2023-08-08
申请号:CN202310488653.8
申请日:2023-04-25
申请人: 山东大学
摘要: 本发明涉及基于注意力融合的循环人脸超分辨率方法及系统,包括以下步骤:获取低分辨人脸图像,基于人脸恢复网络得到图像特征和超分辨图像,得到的超分辨图像基于地标修正网络得到注意力图像;得到的图像特征和前一步人脸恢复网络得到的注意力图像经融合后,通过反馈迭代,得到重建后的超分辨率人脸图像;图像特征和注意力图像融合的过程,具体为:基于图像特征提取通道注意力特征,得到的通道注意力特征和图像特征经逐元素相乘得到空间注意力特征,得到的空间注意力特征与图像特征经逐元素相乘得到最终特征,最终特征与注意力图像经逐元素相乘得到加权特征,加权特征用于输入到人脸恢复网络中进行人脸超分辨。
-
公开(公告)号:CN118072387A
公开(公告)日:2024-05-24
申请号:CN202410189194.8
申请日:2024-02-20
申请人: 山东大学
摘要: 本发明提出了一种基于自适应特征融合的步态识别方法及系统,涉及计算机视觉、模式识别与数字图像处理领域,具体方案包括:获取待识别人员的步态图像序列;将预处理后的步态图像序列作为输入,利用训练好的步态识别模型,提取步态特征,并通过步态特征的匹配得到步态识别结果;步态识别模型,通过自适应特征融合方法自适应地结合全局特征来补偿局部特征因局部卷积造成的信息损失,得到初始步态特征,对初始步态特征在通道维度上进行扩张,并再次平衡全局信息与局部信息,生成最终的步态特征;本发明将自适应特征融合与深度卷积模块结合起来,通过全局特征和局部特征的自适应融合,提取更加完整且更好地表达人员身份的步态特征。
-
公开(公告)号:CN116740516A
公开(公告)日:2023-09-12
申请号:CN202310580498.2
申请日:2023-05-19
申请人: 山东大学
IPC分类号: G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
摘要: 本发明公开了一种基于多尺度融合特征提取的目标检测方法及系统,该方法包括:将预处理后的原始图像输入至目标检测网络中,提取多尺度融合特征图,输出目标检测结果;其中,预处理后的原始图像输入至主干网络,获得三层不同尺度的特征图,再通过SWFC网络得到首次融合后的三层不同尺度的特征图;对尺度最小的特征图进行三次上采样,将所有尺度的特征图输入至LBiFN网络,划分为两组进行特征融合,融合后的两层特征图分别恢复至对应原输入的特征图的大小,舍弃尺度最小的两层特征图,再分别通过自注意力模块,输出加权后的四层不同尺度的多尺度融合特征图。本发明通过多尺度融合和注意力机制,融合多层不同尺度特征,提高目标检测的精度。
-
-
-