-
公开(公告)号:CN113239886B
公开(公告)日:2024-03-19
申请号:CN202110626949.2
申请日:2021-06-04
申请人: 合肥工业大学智能制造技术研究院 , 合肥工业大学
IPC分类号: G06V20/40 , G06V20/52 , G06V20/70 , G06V10/774 , G06V10/82 , G06N3/044 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/084
摘要: 本发明公开了基于跨语言图像变化描述的井下管道泄漏描述方法及装置,所述方法包括:获取井下管道场景图像,对图像进行预处理得到训练集和测试集;构建基于双重动态注意力机制的跨语言图像变化描述模型;将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练;利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试,获得图像描述结果;本发明的优点在于:井下管道泄漏描述较为准确。
-
公开(公告)号:CN113239886A
公开(公告)日:2021-08-10
申请号:CN202110626949.2
申请日:2021-06-04
申请人: 合肥工业大学智能制造技术研究院 , 合肥工业大学
摘要: 本发明公开了基于跨语言图像变化描述的井下管道泄漏描述方法及装置,所述方法包括:获取井下管道场景图像,对图像进行预处理得到训练集和测试集;构建基于双重动态注意力机制的跨语言图像变化描述模型;将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练;利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试,获得图像描述结果;本发明的优点在于:井下管道泄漏描述较为准确。
-
公开(公告)号:CN113128415A
公开(公告)日:2021-07-16
申请号:CN202110437611.2
申请日:2021-04-22
申请人: 合肥工业大学
摘要: 本发明提供了一种环境辨别方法、系统、设备及存储介质,涉及视频问答技术领域,环境辨别方法包括:在采集到环境问题时,实时采集一预设时长的环境视频;根据环境视频中每一帧的环境图像,得到环境图像特征,并提取环境问题的语义特征,得到问题文本特征;将环境图像特征和问题文本特征进行加权融合,得到融合特征;将融合特征输入环境辨别模型,环境辨别模型根据融合特征,采用对应的激活函数和损失函数,得到预测答案。本发明能够在盲人提出问题时,及时的进行环境的辨别和反馈,使得具有视觉障碍的人群能感知到环境信息;且在交互技术中应用了视频问答技术,使得环境辨别的准确度大大提高,输出的辨别结果与实际情况更符合。
-
公开(公告)号:CN111914710A
公开(公告)日:2020-11-10
申请号:CN202010720114.9
申请日:2020-07-24
申请人: 合肥工业大学
摘要: 本发明公开一种铁路机务段场景描述方法及系统。所述铁路机务段场景描述方法包括:获取铁路机务段场景图像数据,预处理铁路机务段场景图像数据为标记图像数据,将标记图像数据划分为训练样本和测试样本,对标记图像数据进行检验,以剔除标记图像数据中异常的图像数据,以得到数据集,通过跨语言图像描述模型训练训练样本,以得到训练后的跨语言图像描述模型,通过训练后的跨语言图像描述模型对所述测试样本进行图像描述,以得到图像描述结果。本发明不需要采用人工观测机务段场景,描述效果好。
-
公开(公告)号:CN111914710B
公开(公告)日:2024-02-13
申请号:CN202010720114.9
申请日:2020-07-24
申请人: 合肥工业大学
IPC分类号: G06V20/40 , G06V10/774 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/084
摘要: 本发明公开一种铁路机务段场景描述方法及系统。所述铁路机务段场景描述方法包括:获取铁路机务段场景图像数据,预处理铁路机务段场景图像数据为标记图像数据,将标记图像数据划分为训练样本和测试样本,对标记图像数据进行检验,以剔除标记图像数据中异常的图像数据,以得到数据集,通过跨语言图像描述模型训练训练样本,以得到训练后的跨语言图像描述模型,通过训练后的跨语言图像描述模型对所述测试样本进行图像描述,以得到图像描述结果。本发明不需要采用人工观测机务段场景,描述效果好。
-
公开(公告)号:CN111914712A
公开(公告)日:2020-11-10
申请号:CN202010720544.0
申请日:2020-07-24
申请人: 合肥工业大学
摘要: 本发明公开一种铁路地面轨道场景目标检测方法及系统。所述铁路地面轨道场景目标检测方法包括:获取铁路地面轨道场景图像数据,处理铁路地面轨道场景图像数据,以得到预处理后的图像数据,将预处理后的图像数据划分为源域数据和目标域数据,训练域自适应目标检测模型,以得到训练后的目标检测模型,通过训练后的目标检测模型对测试样本进行检测识别,以得到检测结果。本发明大大地提高了复杂环境下地面轨道场景的检测效果。
-
公开(公告)号:CN101419045A
公开(公告)日:2009-04-29
申请号:CN200810244708.6
申请日:2008-11-26
申请人: 合肥工业大学
IPC分类号: G01B5/008
摘要: 平行多关节三维坐标测量机,其特征是在测量机的基座上设置第一个水平旋转关节,在第一水平旋转关节的可旋转部件上具有水平旋转角度在0-360度的第一个杆件;在第一杆件的另一端设置第二个水平旋转关节,第二水平旋转关节是以其与第一杆件相固定连接的构件为固定件,在固定件上设置可在水平面上相对转动的第二杆件,第二杆件的另一端设置平移关节,平移关节为Z坐标测量系统,在Z坐标测量系统中设置可Z向移动用于探测被测量点的测头。本发明在精度上介于传统CMM和柔性关节臂式CMM之间、制造成本低、操作方便快捷、能运用于车间在线测量。
-
公开(公告)号:CN113128415B
公开(公告)日:2023-09-29
申请号:CN202110437611.2
申请日:2021-04-22
申请人: 合肥工业大学
摘要: 本发明提供了一种环境辨别方法、系统、设备及存储介质,涉及视频问答技术领域,环境辨别方法包括:在采集到环境问题时,实时采集一预设时长的环境视频;根据环境视频中每一帧的环境图像,得到环境图像特征,并提取环境问题的语义特征,得到问题文本特征;将环境图像特征和问题文本特征进行加权融合,得到融合特征;将融合特征输入环境辨别模型,环境辨别模型根据融合特征,采用对应的激活函数和损失函数,得到预测答案。本发明能够在盲人提出问题时,及时的进行环境的辨别和反馈,使得具有视觉障碍的人群能感知到环境信息;且在交互技术中应用了视频问答技术,使得环境辨别的准确度大大提高,输出的辨别结果与实际情况更符合。
-
公开(公告)号:CN113205507A
公开(公告)日:2021-08-03
申请号:CN202110540093.7
申请日:2021-05-18
申请人: 合肥工业大学
IPC分类号: G06T7/00 , G06T7/11 , G06F16/332 , G06F16/58 , G06F16/583 , G06F16/78 , G06F16/783 , G06F16/215 , G06Q50/06 , G07C1/20
摘要: 本发明提供一种视觉问答方法、系统及服务器,包括:获取输电设备的图像数据,图像数据包括视频数据和图片数据;预处理图像数据,得到原始数据集;对原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;对视觉问答数据集进行训练,得到视觉问答模型;输入问题文本和图片到视觉问答模型,得到视觉问答结果。本发明对图像数据进行视觉问答标注和语义分割标注,得到视觉问答数据集,从而建立了图像数据的语义分割与文本问答之间的图文链接;根据该视觉问答数据集训练得到的视觉问答模型,以图文链接作为锚点,将输入的图片与文本在语义上对齐,提高了视觉问答模型的性能,获得了更加准确的视觉问答结果。
-
公开(公告)号:CN113129862A
公开(公告)日:2021-07-16
申请号:CN202110436317.X
申请日:2021-04-22
申请人: 合肥工业大学
摘要: 本发明涉及一种人工智能技术领域,提供一种基于world‑tacotron的语音合成方法、系统及服务器,本发明在现有的tacotron模型基础上,将韵律信息融入端到端声学建模过程,引入双任务学习框架,主任务为改进的tacotron模型,学习基于字符级嵌入表示的声学特征参数预测;辅助任务为韵律生成模型,即韵律生成器,学习基于词级嵌入的韵律预测。本发明在训练阶段,通过双任务的联合训练,在模型训练中可以学习到更加显示的韵律知识,从而优化了输出语音的质量。
-
-
-
-
-
-
-
-
-