-
公开(公告)号:CN118262003A
公开(公告)日:2024-06-28
申请号:CN202410479956.8
申请日:2024-04-19
申请人: 电子科技大学
IPC分类号: G06T11/00 , G06F40/289 , G06F40/253 , G06F40/166 , G06T7/194
摘要: 本发明公开了一种基于解耦再融合控制的故事分镜生成方法,首先对故事文本进行处理,得到角色和场景的文字提示,根据角色和场景的预设参考图像对预训练好的稳定扩散模型进行微调,得到每个场景或角色所对应的模型参数和对应的嵌入向量,然后生成每个句子中的角色图像和场景图像,以及角色中间图像和场景中间图像,从角色图像中提取出前景掩码图像并据此将角色和场景中间图像进行融合得到融合图像,然后采用角色和场景所对应稳定扩散模型的参数对后续去噪过程进行协同控制,将最终生成图像作为句子所对应的故事分镜图像。本发明综合考虑角色的视觉一致性和场景的上下文相关性,从而提升所生成分镜图像之间的逻辑连贯性。
-
公开(公告)号:CN117237295A
公开(公告)日:2023-12-15
申请号:CN202311186007.2
申请日:2023-09-14
申请人: 电子科技大学
摘要: 本发明公开了一种基于医学图像分割的神经退行性疾病筛查方法,首先对原始脑部MRI影像进行预处理,统一到标准模板空间内,并找到最大横断面截面,用于训练图像分割模型;然后在小样本病例下,通过图像分割模型实现了对脑部MRI影像的精准分割,进而完成不同指标的神经退行性疾病筛查。
-
公开(公告)号:CN113744872B
公开(公告)日:2023-08-08
申请号:CN202111106419.1
申请日:2021-09-22
申请人: 四川省医学科学院·四川省人民医院 , 电子科技大学
摘要: 本发明公开了一种智能交互的阿尔兹海默症辅助筛查系统,涉及语音识别、图像处理技术领域,包括基于语音识别的可交互单元测试模块和基于事实的智能分析模块,单元测试模块用与交互式地收集MoCA测试数据,包括1)视空间和执行功能测试模块、2)语言和抽象功能测试模块以及3)记忆和定向功能测试模块;智能分析模块用于智能地处理和分析多模态数据,包括1)语音识别模块、2)手绘图识别模块和3)决策模块。采用本发明的技术方案集成了MoCA测试项目,大大简化了测试流程,并且统一、系统和完备的测试标准,确保了筛查结果的可靠性、真实性。
-
公开(公告)号:CN111898598B
公开(公告)日:2022-08-30
申请号:CN202010629399.5
申请日:2020-07-03
摘要: 本发明公开了一种动态场景下基于文本的目标检测方法,构建了隐性记忆和显性记忆两种记忆机制,通过隐性记忆保存模型的重要程度,且通过重要程度去约束下一批次的训练,以及通过显性记忆保存难以迁移的数据,将难以迁移的数据放入下一批次的训练集中进行训练,能够有效的帮助神经网络模型进行记忆,避免了神经网络模型在动态场景下的灾难性遗忘问题。
-
公开(公告)号:CN114911958A
公开(公告)日:2022-08-16
申请号:CN202210647107.X
申请日:2022-06-09
申请人: 电子科技大学
IPC分类号: G06F16/51 , G06F16/53 , G06F16/583 , G06V10/74 , G06V10/77 , G06V10/774 , G06V10/82
摘要: 本发明公开了一种基于语义偏好的快速图像检索方法,首先以语义(标签)关联度指导训练语义中心分配模块,得到语义中心矩阵V,然后基于语义中心矩阵V,对固定特征提取模块进行训练,这样通过依照语义关联度约束语义中心在特征空间的分布,并令特征向量朝着对应语义中心聚集,从而在语义关联度的指导下充分利用特征空间,有效避免了具备不同标签的特征向量的混淆,解决了特征分布不合理的情况,有效避免不同类特征向量的混淆,提升检索准确度;其次,本发明为码字指定了语义偏好,实现了不可导的量化损失与有偏的软量化损失之间的折衷,采用偏差较低的方案优化码字,从而提升量化器性能,以保证执行快速检索时,量化向量能更好地近似特征向量,实现了降低量化误差的目的。
-
公开(公告)号:CN109670057B
公开(公告)日:2021-06-29
申请号:CN201910005178.8
申请日:2019-01-03
申请人: 电子科技大学
摘要: 本发明涉及图像检索领域,其公开了一种渐进式的端到端深度特征量化系统及方法,解决传统技术中由于特征提取和量化两部分相互孤立,在数据库中的二进制编码长度需要变更时,需要重新训练神经网络并对整个数据库重新编码,而带来的耗费时间和运算资源的问题。该系统包括深度神经网络,所述深度神经网络包括:图像特征优化单元,用于将图片通过表示学习,生成用于描述图片的D维实数特征向量;特征量化单元,用于通过一个或多个量化层将特征向量转化为二进制编码;当使用多个量化层时,各个量化层的量化误差作为下一个量化层的输入,根据编码精度需求选择相应个数的量化层的量化输出的编码进行拼接,获得最终的二进制编码。
-
公开(公告)号:CN118916520A
公开(公告)日:2024-11-08
申请号:CN202411020426.3
申请日:2024-07-29
申请人: 电子科技大学(深圳)高等研究院
IPC分类号: G06F16/783 , G06F16/732 , G06F16/33 , G06F16/332 , G06F18/22 , G06F18/25 , G06V20/40 , G06V20/70 , G06F40/126 , G06F40/30 , G06N3/0455 , G06N3/08
摘要: 本发明公开了一种基于全局与局部语义的视频‑文本检索方法,构建包括文本特征提取模块,视频特征提取模块,全局交互模块,局部交互模块和相似度融合模块的视频‑文本跨模态匹配模型,全局交互模块用于对文本特征提取模块和视频特征提取模块所提取得到的文本特征和视频特征计算得到全局相似度,局部交互模块用于基于Transformer编码器对文本的词特征和视频特征计算得到局部相似度,再由相似度融合模块将全局相似度和局部相似度融合得到视频‑文本的匹配度。本发明构建视频‑文本跨模态匹配模型,通过挖掘跨模态的潜在共享语义来优化视频‑文本检索。
-
公开(公告)号:CN109726696B
公开(公告)日:2023-04-07
申请号:CN201910004805.6
申请日:2019-01-03
申请人: 电子科技大学
IPC分类号: G06V20/20 , G06V10/774 , G06V30/262
摘要: 本发明涉及图像理解领域,其公开了一种基于推敲注意力机制的图像描述生成系统及方法,解决现有图像描述方案存在的缺少润色过程、训练和测试过程不一致、生成描述辨识度不高的问题。该方法包括:a.数据集的处理:提取图像的全局特征和局部特征,构建数据集,对数据集中的单词进行标记,生成对应的词嵌入向量;b.训练图像描述生成模型:采用第一层基于残差注意力机制的解码器生成粗略的图像描述,采用第二层基于残差注意力机制的解码器对已生成的图像描述进行润色;c.结合强化学习进一步训练模型:在训练过程中模拟模型的测试过程,并且以生成描述的CIDEr分数来引导模型的训练,结合强化学习对模型进行调整。
-
公开(公告)号:CN115565052A
公开(公告)日:2023-01-03
申请号:CN202211060522.1
申请日:2022-08-30
申请人: 电子科技大学
IPC分类号: G06V10/86 , G06V10/82 , G06V10/776 , G06V10/764
摘要: 本发明公开了一种基于双分支混合学习网络的无偏差场景图生成方法,涉及图像处理技术领域,解决最近无偏差场景图生成方法不能同时照顾头部谓词和尾部谓词学习的技术问题,包括以下步骤:将图像输入到目标检测器中,得到图像中实例的视觉特征、语义特征以及空间特征;将图像中实例的特征送入到粗粒度学习分支和细粒度学习分支中,其中粗粒度学习分支用以学习头部谓词的专家知识以及获得头部谓词的鲁棒性特征,细粒度学习分支用以预测具有信息性的尾部谓词;知识蒸馏,采用语义上下文模块,对细粒度学习分支的预测结果中不合理的预测进行修正,同时计算所预测的场景图的语义和所标注的场景图的语义之间的差距,并用均方差损失优化。
-
公开(公告)号:CN115131700A
公开(公告)日:2022-09-30
申请号:CN202210729782.7
申请日:2022-06-24
申请人: 电子科技大学
IPC分类号: G06V20/40 , G06V40/20 , G06V10/774 , G06V10/776 , G06V10/80 , G06V10/82 , G06V10/764 , G06N3/04 , G06N3/08 , G10L25/27 , G10L25/48
摘要: 本发明公开了一种弱监督音视频内容解析的双路层次化混合模型的训练方法,所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络,该训练方法首先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注;然后利用得到的不完全准确的音频标注和视频标注,协同训练模态引导网络和层次化上下文建模网络;通过上述训练方法,可以得到具有较强模态分辨能力的上下文层次化建模网络,较好地对音视频进行内容解析;模态引导网络强化了模态区分能力;本发明采用的双路层次化混合模型来解决弱监督音视频内容解析任务,进一步提高了模型对不同模态的适应和理解能力。
-
-
-
-
-
-
-
-
-