-
公开(公告)号:CN115757873A
公开(公告)日:2023-03-07
申请号:CN202211477636.6
申请日:2022-11-23
Applicant: 桂林电子科技大学
IPC: G06F16/783 , G06N3/0455
Abstract: 本发明提供一种视频文本检索方法、装置、系统以及存储介质,属于视频处理领域,方法包括:将视频随机划分为训练集和测试集;对视频以及自然语言文本描述进行预处理得到目标视频画面块序列;构建视频编码器和视觉语义监督编码器,并利用视觉语义监督编码器以及目标视频画面块序列对视频编码器进行训练得到训练后视频编码器以及视频文本距离。本发明保证了编码器的高效率的同时,能够有效的挖掘出视频数据的时空信息和文本数据的上下文信息,实现了更加精确的语义对齐,能够有效的提升了视频文本检索的效果,而且具有一定的泛化能力,提高了模型的可靠性和稳定性。
-
公开(公告)号:CN115713382A
公开(公告)日:2023-02-24
申请号:CN202211413777.1
申请日:2022-11-11
Applicant: 桂林电子科技大学
IPC: G06Q30/0601
Abstract: 本发明提供一种商品推荐方法、装置、系统以及存储介质,属于商品推荐领域,方法包括:通过用户信息和商品信息构建得到用户节点、用户节点数据、商品项目节点以及商品项目节点数据;对用户节点以及用户节点数据进行用户节点向量的更新得到更新后用户节点向量;对商品项目节点以及商品项目节点数据进行商品项目节点向量的更新得到更新后商品项目节点向量。本发明能够捕获全局协同特征和好友之间的社交影响,可以有效过滤与当前序列交易无关的节点转换关系,使推荐性能以及准确性得到进一步提高。
-
-
公开(公告)号:CN115221863A
公开(公告)日:2022-10-21
申请号:CN202210844106.4
申请日:2022-07-18
Applicant: 桂林电子科技大学
IPC: G06F40/216 , G06F40/30 , G06K9/62 , G06F17/18
Abstract: 本发明提供一种文本摘要评价方法、装置以及存储介质,属于语言处理领域,方法包括:对原始中文文本进行预处理得到处理后文本;对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析得到摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布;对摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布进行评价分数的计算得到文本摘要评价结果。本发明能够更加合理地评价生成摘要,且评价结果更加接近人工评价,从而使评价内容更灵活且合理。
-
公开(公告)号:CN115205746A
公开(公告)日:2022-10-18
申请号:CN202210833563.3
申请日:2022-07-14
Applicant: 桂林电子科技大学
Abstract: 本发明提供一种视频描述方法、装置及存储介质,方法包括:从预设视频数据集中导入待描述视频,对所述待描述视频进行特征提取,得到图像特征和运动特征;将所述图像特征和所述运动特征拼接,得到拼接特征,并通过门控融合机制将所述图像特征、所述运动特征和所述拼接特征一并进行编码处理,得到编码视觉视频特征;将所述编码视觉视频特征进行解码,得到所述编码视觉视频特征的描述。本发明能够去除视频特征语义信息里多余或不重要的信息,降低冗余信息对生成描述的干扰,提升视频描述的准确性。
-
公开(公告)号:CN113407780B
公开(公告)日:2022-07-05
申请号:CN202110552511.4
申请日:2021-05-20
Applicant: 桂林电子科技大学
Abstract: 本发明提供一种目标检索方法、装置及存储介质,方法包括:从监控设备中获取原始视频数据,并对原始视频数据进行分割处理,得到多个原始视频段;分别对各个原始视频段进行融合特征分析,得到与各个原始视频段对应的融合特征向量;导入待检索目标视频数据,并对待检索目标视频数据进行分割处理,得到多个待检索目标视频段;分别对各个待检索目标视频段进行融合特征分析,得到与待检索目标视频段对应的待检索融合特征向量。本发明充分融合了待检索目标的外形和脸部特征,使得检索准确率大大地提高,节约了人力,实现了快速且准确的在视频中检索目标,更好地满足了产业界的需求。
-
公开(公告)号:CN113409157B
公开(公告)日:2022-06-28
申请号:CN202110545701.3
申请日:2021-05-19
Applicant: 桂林电子科技大学
Abstract: 本发明提供一种跨社交网络用户对齐方法及装置,方法包括:导入社交网络用户数据,并构建用于进行特征提取的训练模型,根据社交网络用户数据对训练模型进行优化处理,得到优化模型,导入待测社交网络用户数据,通过优化模型对待测社交网络用户数据进行对齐处理,得到用户对齐结果。本发明能够提取区分性语义特征,减少网络结构信息的稀疏性,大大地提高了跨社交网络用户对齐的准确性。
-
公开(公告)号:CN114596523A
公开(公告)日:2022-06-07
申请号:CN202210167890.X
申请日:2022-02-23
Applicant: 桂林电子科技大学
IPC: G06V20/40 , G06K9/62 , G06F16/738 , G06V10/80 , G06V10/774
Abstract: 本发明提供一种多特征融合的视频描述方法、装置及存储介质,导入数据集,数据集包括多个数据组,各个数据组包括视频与描述信息;分别对各个数据组中的视频进行特征提取,得到运动特征和全局特征,将运动特征和全局特征进行特征拼接,得到各个视频对应的视频特征,分别提取各个数据组中描述信息对应的对象特征,并计算贡献值,根据各个贡献值计算对应视频中所有视频帧的区域特征和;分别将各个视频对应的特征输入训练模型中进行融合训练,得到融合特征;分别将各个所述视频对应的描述信息转换为文本特征;分别将各个所述视频对应的文本特征和各个所述视频对应的融合特征输入到预设的transformer语言模型中,输出视频描述语句。
-
公开(公告)号:CN114495220A
公开(公告)日:2022-05-13
申请号:CN202210060310.7
申请日:2022-01-19
Applicant: 桂林电子科技大学
IPC: G06V40/16 , G06V20/52 , G06V20/40 , G06K9/62 , G06V10/774
Abstract: 本发明提供一种目标身份识别方法、装置以及存储介质,属于图像识别技术领域,方法包括:S1:导入多个目标行人图片,分别对各个目标行人图片的人脸检测得到目标脸部图片;S2:分别对各个目标行人图片以及各个目标脸部图片的特征提取得到行人特征以及人脸特征;S3:构建训练模型,通过训练模型对多个行人特征以及多个人脸特征的身份识别分析得到目标身份识别结果。相比于现有的单用人脸或行人进行身份识别,本发明的目标身份识别准确率更高,且目标识别结果具有更强的可靠性,并且能够很好的适用于视频监控场景下,解决了不同质量特征对目标身份决策的影响不同的问题。
-
公开(公告)号:CN113191262A
公开(公告)日:2021-07-30
申请号:CN202110476061.5
申请日:2021-04-29
Applicant: 桂林电子科技大学
Abstract: 本发明提供一种视频描述数据处理方法、装置及存储介质,方法包括:导入视频序列,并将所述视频序列分割为多个视频图片;通过预设的卷积神经网络对所有的所述视频图片进行特征分割分析,得到多个镜头数据集;通过所述预设的卷积神经网络对所有的所述镜头数据集进行合并分析,得到多个合并后的镜头数据集;通过所述预设的卷积神经网络对多个所述合并后的镜头数据集进行特征提取,得到视频描述特征序列;通过预设的视频描述模型将所述视频描述特征序列转换为视频描述信息。本发明能够不需要每个镜头数据都生成文字描述后结合生成最终描述,直接将自然语言的问题转化为图像问题,减少了生成描述的冗余度,提高了文字描述的流畅度。
-
-
-
-
-
-
-
-
-