-
公开(公告)号:CN112990302A
公开(公告)日:2021-06-18
申请号:CN202110266563.5
申请日:2021-03-11
Applicant: 北京邮电大学
Abstract: 本申请公开了一种基于文本生成图像的模型训练方法、设备和图像生成方法,其中方法包括基于预设训练样本集合中各训练样本的文本信息,生成文本嵌入式表示,将所述文本嵌入式表示输入至图像生成模型,触发图像生成模型基于该文本嵌入式表示,生成人造图像,并采用模态解纠缠方式,提取人造图像的真实度参数和相应训练样本的真实图像的真实度参数;基于所述人造图像,确定所述训练样本的正例和负例;利用所述图像生成模型,基于每个训练样本的正例、负例和真实图像各自对应的所述真实度参数,计算总体损失函数;利用所述总体损失函数,调整所述图像生成模型的参数。采用本申请可以提高模型学习效率和图像生成效果。
-
公开(公告)号:CN112860862A
公开(公告)日:2021-05-28
申请号:CN202110133448.0
申请日:2021-02-01
Applicant: 北京邮电大学
IPC: G06F16/332 , G06F16/33 , G06F16/35
Abstract: 本申请公开了一种人机对话中智能体对话语句的生成方法和装置,其中方法包括:利用预先训练的自然语言理解模型,从当前人机对话的对话历史数据中,提取预设知识库中的属性值和场景类别;其中,所述知识库由知识三元组构成;基于所述属性值和所述场景类别,从所述知识库中筛选出相关的知识三元组,得到候选知识子集;基于所述对话历史数据和所述候选知识子集,利用预先训练的对话生成模型,为智能体生成当前的响应语句并输出。采用本发明,可以支持多任务场景的人机对话。
-
公开(公告)号:CN112689099A
公开(公告)日:2021-04-20
申请号:CN202011460648.9
申请日:2020-12-11
Applicant: 北京邮电大学
Abstract: 本发明实施例提供了一种面向双镜头相机的无重影高动态范围成像方法及装置,获取双镜头相机在同一时刻采集的一张长曝光图像和一张短曝光图像;将所述长曝光图像和所述短曝光图像输入无重影高动态范围成像的主图像增强模型,以使得所述主图像增强模型执行如下操作,获得高动态范围图像:基于所述短曝光图像,对所述长曝光图像进行对齐调整,获得对齐图像;基于所述对齐图像,对所述短曝光图像进行曝光调整以及降噪处理,获得降噪图像;对所述短曝光图像和所述降噪图像进行融合,得到所述高动态范围图像。通过本方案,可以获得面向双镜头相机的无重影的高动态范围图像,提高双镜头相机的成像质量。
-
公开(公告)号:CN110135441B
公开(公告)日:2020-03-03
申请号:CN201910414090.1
申请日:2019-05-17
Applicant: 北京邮电大学
Abstract: 本发明实施例提供了一种图像的文本描述方法及装置,方法包括:获取待描述图像,提取待描述图像的多个区域特征和一个全局特征;将区域特征、全局特征输入预先训练的文本描述神经网络中的句子级子网络,得到针对每个待生成句子的句子指导向量;将句子指导向量输入文本描述神经网络中的词汇子网络,得到描述文本;由于采用句子级子网络和词汇级子网络的分层结构,能够捕捉段落中句子之间的连贯性,提高了生成的文本段落中句子之间的连贯性,此外,相较于现有的基于循环神经网络的方案,降低了训练过程的计算复杂度。
-
公开(公告)号:CN104462489B
公开(公告)日:2018-02-23
申请号:CN201410800393.4
申请日:2014-12-18
Applicant: 北京邮电大学
Abstract: 本发明提出了一种基于深层模型的跨模态检索方法,该方法包括:利用特征提取方法分别获得目标检索模态与检索库中每一个被检索模态的低级表达向量;目标检索模态的低级表达向量分别与检索库中每一个被检索模态的低级表达向量,通过堆叠对应的受限波尔兹曼机Corr‑RBMs深层模型获得目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量;利用目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量计算目标检索模态与检索库中每一个被检索模态的距离;将检索库中与目标检索模态距离最近的至少一个被检索模态确定为与目标检索模态匹配的对象。
-
公开(公告)号:CN103678660B
公开(公告)日:2017-01-11
申请号:CN201310722183.3
申请日:2013-12-24
Applicant: 北京邮电大学
IPC: G06F17/30
Abstract: 本发明公开了一种图像检索方法,首先计算图像数据库中任意两个图像的内点数,根据公式计算任意两个图像的相关度值;然后计算查询目标与图像数据库中任一图像的相关度值,得到与查询目标直接相关的图像与间接相关的图像;构建一个赋权邻接矩阵A进行衰减,且增加弥补衰减过度造成间接相关度值过小的补给项计算查询目标vq与图像vi的间接相关度值,并通过迭代调整所述间接相关度值使得相关度值越高的图像与查询目标vq的间接相关度值越大;将查询目标与图像数据库各图像的直接相关度和间接相关度进行排序,得到图像数据库中包含查询目标的图像。
-
公开(公告)号:CN105654114A
公开(公告)日:2016-06-08
申请号:CN201510984582.6
申请日:2015-12-24
Applicant: 国家电网公司信息通信分公司 , 北京邮电大学 , 国家电网公司
IPC: G06K9/62
CPC classification number: G06K9/6215
Abstract: 本发明公开了一种文献查新的方法,包括:根据查新项目自动检索所述查新项目对应的第一相关文献集合;将所述第一相关文献集合与人工分析得到的第二相关文献集合综合分析得到目标相关文献集合;在所述目标相关文献集合的基础上计算所述查新项目中每个技术要点的差异型或创新型得到计算结果;根据所述计算结果形成所述查新项目的查新结论。由于采用了第一相关文献集合和第二相关文献集合综合得到目标相关文献集合,且第一相关文献集合是自动获取的,降低了受知识领域限制带来的影响,因此,减少了人工检索的工作量,且能够提高查新的准确性。此外,本发明还公开一种文献查新的装置。
-
公开(公告)号:CN105005986A
公开(公告)日:2015-10-28
申请号:CN201510347373.0
申请日:2015-06-19
Applicant: 北京邮电大学
IPC: G06T7/00
Abstract: 本发明实施例公开了一种三维注册方法及装置。一种三维注册方法,应用于具有陀螺仪及摄像头的终端,所述摄像头用于拍摄包含标志物的真实场景的图像,所述标志物放置于任一平面上,所述方法包括以下步骤:读取所述陀螺仪的角度信息,并根据读取的陀螺仪的角度信息,确定预先建立的世界坐标系到当前时刻的摄像机坐标系的旋转矩阵RWC;确定所述标志物坐标系到所述摄像机坐标系的旋转矩阵RMC;确定所述标志物坐标系到所述摄像机坐标系的平移向量TMC;根据确定的RMC和确定的TMC,进行三维注册。应用本发明实施例所提供的技术方案,提高了三维注册过程中旋转矩阵求解的鲁棒性与精度,使得虚拟对象与真实场景的叠加达到较好的融合效果。
-
公开(公告)号:CN116797972B
公开(公告)日:2024-09-06
申请号:CN202310756691.7
申请日:2023-06-26
Applicant: 中科(黑龙江)数字经济研究院有限公司 , 北京邮电大学
IPC: G06V20/40 , G06N3/045 , G06N3/0895
Abstract: 本发明为视频分析领域,公开了基于稀疏图因果时序编码的自监督群体行为识别方法及其识别装置。获得群体行为视频数据;基于稀疏图因果时序预测编码,构建描述群体状态时空信息变化的网络结构,网络结构包括特征提取网络、编码器与解码器。特征提取网络,用于根据群体行为视频数据提取特征向量组;编码器,根据群体行为视频数据构建的场景中个体的稀疏图;解码器,利用注意力机制建模长期线索之间的依赖关系关注最相关的历史动态,以用于预测未来群组变化;对描述群体状态时空信息变化的网络结构构建损失函数,增强自监督学习的效果;利用优化后的网络结构实现自监督条件下的群体行为识别。本发明可针对具有复杂时序关系和空间位置关系的群体行为进行建模与识别,用以解决常用的基于循环神经网络等模型在表示行为动态特征方面能力不足、识别性能欠佳的问题。
-
公开(公告)号:CN117609536A
公开(公告)日:2024-02-27
申请号:CN202311632626.X
申请日:2023-12-01
Applicant: 北京邮电大学
IPC: G06F16/58 , G06F16/583 , G06V10/44 , G06V10/764 , G06V10/82 , G06F16/55 , G06F16/33 , G06N3/0455 , G06N3/048 , G06N3/08 , G06N5/04
Abstract: 本发明提供一种基于语言引导的指称表达理解推理网络系统及推理方法,包括:文本特征提取器、图像特征提取器、文本特征扩展器(TFE)、跨模态对齐模块(TCA)和跨模态融合模块(TCF);通过语言引导推理网络模型(LGR‑NET),以充分利用指称表达式的指导;设置预测标记来捕捉跨模态特征,为了充分利用文本特征,通过文本特征扩展模块(TFE)从三个方面对其进行了扩展,文本生成的坐标嵌入有助于预测词元捕获关键的视觉特征;文本特征用于交替的跨模态推理;新颖的跨模态损失增强了跨模态对齐;如此文本特征从多个角度充分的引导了模型整体的跨模态推理流程,充分利用了文本中的线索,大大提高了模型性能。
-
-
-
-
-
-
-
-
-