基于解耦再融合控制的故事分镜生成方法

    公开(公告)号:CN118262003A

    公开(公告)日:2024-06-28

    申请号:CN202410479956.8

    申请日:2024-04-19

    摘要: 本发明公开了一种基于解耦再融合控制的故事分镜生成方法,首先对故事文本进行处理,得到角色和场景的文字提示,根据角色和场景的预设参考图像对预训练好的稳定扩散模型进行微调,得到每个场景或角色所对应的模型参数和对应的嵌入向量,然后生成每个句子中的角色图像和场景图像,以及角色中间图像和场景中间图像,从角色图像中提取出前景掩码图像并据此将角色和场景中间图像进行融合得到融合图像,然后采用角色和场景所对应稳定扩散模型的参数对后续去噪过程进行协同控制,将最终生成图像作为句子所对应的故事分镜图像。本发明综合考虑角色的视觉一致性和场景的上下文相关性,从而提升所生成分镜图像之间的逻辑连贯性。

    一种动态场景下基于文本的目标检测方法

    公开(公告)号:CN111898598B

    公开(公告)日:2022-08-30

    申请号:CN202010629399.5

    申请日:2020-07-03

    IPC分类号: G06V20/62 G06K9/62 G06N3/08

    摘要: 本发明公开了一种动态场景下基于文本的目标检测方法,构建了隐性记忆和显性记忆两种记忆机制,通过隐性记忆保存模型的重要程度,且通过重要程度去约束下一批次的训练,以及通过显性记忆保存难以迁移的数据,将难以迁移的数据放入下一批次的训练集中进行训练,能够有效的帮助神经网络模型进行记忆,避免了神经网络模型在动态场景下的灾难性遗忘问题。

    一种基于语义偏好的快速图像检索方法

    公开(公告)号:CN114911958A

    公开(公告)日:2022-08-16

    申请号:CN202210647107.X

    申请日:2022-06-09

    摘要: 本发明公开了一种基于语义偏好的快速图像检索方法,首先以语义(标签)关联度指导训练语义中心分配模块,得到语义中心矩阵V,然后基于语义中心矩阵V,对固定特征提取模块进行训练,这样通过依照语义关联度约束语义中心在特征空间的分布,并令特征向量朝着对应语义中心聚集,从而在语义关联度的指导下充分利用特征空间,有效避免了具备不同标签的特征向量的混淆,解决了特征分布不合理的情况,有效避免不同类特征向量的混淆,提升检索准确度;其次,本发明为码字指定了语义偏好,实现了不可导的量化损失与有偏的软量化损失之间的折衷,采用偏差较低的方案优化码字,从而提升量化器性能,以保证执行快速检索时,量化向量能更好地近似特征向量,实现了降低量化误差的目的。

    一种渐进式的端到端深度特征量化系统及方法

    公开(公告)号:CN109670057B

    公开(公告)日:2021-06-29

    申请号:CN201910005178.8

    申请日:2019-01-03

    IPC分类号: G06F16/50 G06N3/04

    摘要: 本发明涉及图像检索领域,其公开了一种渐进式的端到端深度特征量化系统及方法,解决传统技术中由于特征提取和量化两部分相互孤立,在数据库中的二进制编码长度需要变更时,需要重新训练神经网络并对整个数据库重新编码,而带来的耗费时间和运算资源的问题。该系统包括深度神经网络,所述深度神经网络包括:图像特征优化单元,用于将图片通过表示学习,生成用于描述图片的D维实数特征向量;特征量化单元,用于通过一个或多个量化层将特征向量转化为二进制编码;当使用多个量化层时,各个量化层的量化误差作为下一个量化层的输入,根据编码精度需求选择相应个数的量化层的量化输出的编码进行拼接,获得最终的二进制编码。

    基于推敲注意力机制的图像描述生成系统及方法

    公开(公告)号:CN109726696B

    公开(公告)日:2023-04-07

    申请号:CN201910004805.6

    申请日:2019-01-03

    摘要: 本发明涉及图像理解领域,其公开了一种基于推敲注意力机制的图像描述生成系统及方法,解决现有图像描述方案存在的缺少润色过程、训练和测试过程不一致、生成描述辨识度不高的问题。该方法包括:a.数据集的处理:提取图像的全局特征和局部特征,构建数据集,对数据集中的单词进行标记,生成对应的词嵌入向量;b.训练图像描述生成模型:采用第一层基于残差注意力机制的解码器生成粗略的图像描述,采用第二层基于残差注意力机制的解码器对已生成的图像描述进行润色;c.结合强化学习进一步训练模型:在训练过程中模拟模型的测试过程,并且以生成描述的CIDEr分数来引导模型的训练,结合强化学习对模型进行调整。

    一种基于双分支混合学习网络的无偏差场景图生成方法

    公开(公告)号:CN115565052A

    公开(公告)日:2023-01-03

    申请号:CN202211060522.1

    申请日:2022-08-30

    摘要: 本发明公开了一种基于双分支混合学习网络的无偏差场景图生成方法,涉及图像处理技术领域,解决最近无偏差场景图生成方法不能同时照顾头部谓词和尾部谓词学习的技术问题,包括以下步骤:将图像输入到目标检测器中,得到图像中实例的视觉特征、语义特征以及空间特征;将图像中实例的特征送入到粗粒度学习分支和细粒度学习分支中,其中粗粒度学习分支用以学习头部谓词的专家知识以及获得头部谓词的鲁棒性特征,细粒度学习分支用以预测具有信息性的尾部谓词;知识蒸馏,采用语义上下文模块,对细粒度学习分支的预测结果中不合理的预测进行修正,同时计算所预测的场景图的语义和所标注的场景图的语义之间的差距,并用均方差损失优化。

    弱监督音视频内容解析的双路层次化混合模型的训练方法

    公开(公告)号:CN115131700A

    公开(公告)日:2022-09-30

    申请号:CN202210729782.7

    申请日:2022-06-24

    摘要: 本发明公开了一种弱监督音视频内容解析的双路层次化混合模型的训练方法,所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络,该训练方法首先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注;然后利用得到的不完全准确的音频标注和视频标注,协同训练模态引导网络和层次化上下文建模网络;通过上述训练方法,可以得到具有较强模态分辨能力的上下文层次化建模网络,较好地对音视频进行内容解析;模态引导网络强化了模态区分能力;本发明采用的双路层次化混合模型来解决弱监督音视频内容解析任务,进一步提高了模型对不同模态的适应和理解能力。