-
公开(公告)号:CN118733839A
公开(公告)日:2024-10-01
申请号:CN202410840853.X
申请日:2024-06-26
申请人: 中国人民大学 , 北京达佳互联信息技术有限公司
IPC分类号: G06F16/903 , G06F16/906 , G06F18/213 , G06F18/25 , G06F18/24 , G06N3/0455 , G06N3/084 , G06F16/35 , G06F16/75 , G06F16/783 , G06F16/33
摘要: 本公开关于对象表征模型训练方法、对象表征方法及相关设备,该方法包括:获取各样本对象在不同域的多模态数据;样本对象在每个域的多模态数据包括对象图像数据和该样本对象对应的对象描述文本;将样本对象在每个域的多模态数据分别输入至待训练的对象表征模型的编码网络进行编码处理,得到样本对象在每个域的多模态编码特征;将样本对象在每个域的多模态编码特征分别输入至待训练的对象表征模型的特征交互网络进行每个域的多模态特征交互,得到样本对象在每个域的多模态全局特征;基于各样本对象在不同域的多模态全局特征,对待训练的对象表征模型进行机器学习训练,得到训练好的所述对象表征模型。本公开提升了跨域对象表征的准确性。
-
公开(公告)号:CN107480144A
公开(公告)日:2017-12-15
申请号:CN201710657104.3
申请日:2017-08-03
申请人: 中国人民大学
摘要: 本发明提供一种具备跨语言学习能力的图像自然语言描述生成方法和装置,该方法,包括:将英文描述句子通过机器翻译为目标语言描述句子;通过随机采样选取部分目标语言描述句子构成训练样本集;利用通顺样本集和不通顺样本集训练句子通顺度模型;通过句子通顺度模型对候选数据集中的目标语言描述句子进行通顺度评估,根据每个目标语言描述句子的通顺度概率来设置训练图像描述句子生成模型的策略;根据策略训练图像描述句子生成模型,得到训练之后的图像描述句子生成模型。实现依据流畅度评估结果引导训练生成目标语言的图像句子生成模型,降低了不流畅目标语言描述句子对训练过程的影响,提高了目标语言的图像句子生成模型的准确度。
-
公开(公告)号:CN116910306A
公开(公告)日:2023-10-20
申请号:CN202310847299.3
申请日:2023-07-11
申请人: 中国人民大学
IPC分类号: G06F16/783 , G06V20/40 , G06V20/62 , G06V10/80 , G06V10/77 , G06N3/042 , G06N3/09 , G06N3/084
摘要: 本发明涉及一种基于多粒度知识蒸馏的跨模态视频检索方法及系统,其特征在于,该方法包括:确定待查询的文本;将待查询的文本输入至预先输入视频的学生模型内,输出对应的若干视频;所述学生模型为教师模型采用多粒度教学训练算法训练得到的,本发明在保留学生模型较低的计算和存储开销的同时,缩小了学生模型和教师模型之间的检索精度差距,可以广泛应用于跨模态视频检索领域中。
-
公开(公告)号:CN114926892A
公开(公告)日:2022-08-19
申请号:CN202210667546.7
申请日:2022-06-14
申请人: 中国人民大学
摘要: 本发明属于图像匹配技术领域,涉及一种基于深度学习的眼底图像匹配方法、系统和可读介质,包括:将眼底图像输入深度神经网络模型进行训练获得同时实现关键点检测和特征提取的深度神经网络模型,该模型包括一个编码器网络和两个解码器网络;将待测眼底图像输入训练好的模型,生成关键点概率图和描述特征图;获得关键点坐标集合和关键点特征集合;将两张待匹配眼底图像对应的将关键点坐标集合和关键点特征集合进行匹配,获得匹配集;根据匹配集计算仿射变换的参数,实现图像配准,确定匹配的外点和内点,并根据内点的数量进行身份验证。其简单有效,只需要训练部分特征,大幅度减少了计算量,允许输入更大尺寸的图像,更适用于医疗眼底图像场景。
-
公开(公告)号:CN118823032A
公开(公告)日:2024-10-22
申请号:CN202410968000.4
申请日:2024-07-18
申请人: 中国人民大学 , 中国医学科学院北京协和医院
IPC分类号: G06T7/10 , G06N3/0464 , G06V10/40 , G06V10/774 , G06T7/33
摘要: 本发明涉及视网膜血管分割领域,提供一种基于深度学习的广域视网膜血管分割方法、装置、设备及介质,包括:获取视网膜影像;将视网膜影像输入广域视网膜血管分割模型,获得视网膜血管分割结果,其中,广域视网膜血管分割模型是在卷积神经网络中增加双流卷积提示模块进行实现。相对于传统的针对每一种视网膜影像开发一个血管分割模型的方案,本发明基于一个广域视网膜血管分割模型,对不同视网膜影像模态进行血管分割,由于仅仅采用一个广域视网膜血管分割模型,节省了模型存储和运行时的开销。
-
公开(公告)号:CN107480144B
公开(公告)日:2020-10-20
申请号:CN201710657104.3
申请日:2017-08-03
申请人: 中国人民大学
IPC分类号: G06F40/253 , G06F40/58 , G06K9/62
摘要: 本发明提供一种具备跨语言学习能力的图像自然语言描述生成方法和装置,该方法,包括:将英文描述句子通过机器翻译为目标语言描述句子;通过随机采样选取部分目标语言描述句子构成训练样本集;利用通顺样本集和不通顺样本集训练句子通顺度模型;通过句子通顺度模型对候选数据集中的目标语言描述句子进行通顺度评估,根据每个目标语言描述句子的通顺度概率来设置训练图像描述句子生成模型的策略;根据策略训练图像描述句子生成模型,得到训练之后的图像描述句子生成模型。实现依据流畅度评估结果引导训练生成目标语言的图像句子生成模型,降低了不流畅目标语言描述句子对训练过程的影响,提高了目标语言的图像句子生成模型的准确度。
-
-
-
-
-