一种环境辨别方法、系统、设备及存储介质

    公开(公告)号:CN113128415A

    公开(公告)日:2021-07-16

    申请号:CN202110437611.2

    申请日:2021-04-22

    摘要: 本发明提供了一种环境辨别方法、系统、设备及存储介质,涉及视频问答技术领域,环境辨别方法包括:在采集到环境问题时,实时采集一预设时长的环境视频;根据环境视频中每一帧的环境图像,得到环境图像特征,并提取环境问题的语义特征,得到问题文本特征;将环境图像特征和问题文本特征进行加权融合,得到融合特征;将融合特征输入环境辨别模型,环境辨别模型根据融合特征,采用对应的激活函数和损失函数,得到预测答案。本发明能够在盲人提出问题时,及时的进行环境的辨别和反馈,使得具有视觉障碍的人群能感知到环境信息;且在交互技术中应用了视频问答技术,使得环境辨别的准确度大大提高,输出的辨别结果与实际情况更符合。

    一种铁路机务段场景描述方法及系统

    公开(公告)号:CN111914710A

    公开(公告)日:2020-11-10

    申请号:CN202010720114.9

    申请日:2020-07-24

    摘要: 本发明公开一种铁路机务段场景描述方法及系统。所述铁路机务段场景描述方法包括:获取铁路机务段场景图像数据,预处理铁路机务段场景图像数据为标记图像数据,将标记图像数据划分为训练样本和测试样本,对标记图像数据进行检验,以剔除标记图像数据中异常的图像数据,以得到数据集,通过跨语言图像描述模型训练训练样本,以得到训练后的跨语言图像描述模型,通过训练后的跨语言图像描述模型对所述测试样本进行图像描述,以得到图像描述结果。本发明不需要采用人工观测机务段场景,描述效果好。

    平行多关节三维坐标测量机

    公开(公告)号:CN101419045A

    公开(公告)日:2009-04-29

    申请号:CN200810244708.6

    申请日:2008-11-26

    IPC分类号: G01B5/008

    摘要: 平行多关节三维坐标测量机,其特征是在测量机的基座上设置第一个水平旋转关节,在第一水平旋转关节的可旋转部件上具有水平旋转角度在0-360度的第一个杆件;在第一杆件的另一端设置第二个水平旋转关节,第二水平旋转关节是以其与第一杆件相固定连接的构件为固定件,在固定件上设置可在水平面上相对转动的第二杆件,第二杆件的另一端设置平移关节,平移关节为Z坐标测量系统,在Z坐标测量系统中设置可Z向移动用于探测被测量点的测头。本发明在精度上介于传统CMM和柔性关节臂式CMM之间、制造成本低、操作方便快捷、能运用于车间在线测量。

    一种环境辨别方法、系统、设备及存储介质

    公开(公告)号:CN113128415B

    公开(公告)日:2023-09-29

    申请号:CN202110437611.2

    申请日:2021-04-22

    摘要: 本发明提供了一种环境辨别方法、系统、设备及存储介质,涉及视频问答技术领域,环境辨别方法包括:在采集到环境问题时,实时采集一预设时长的环境视频;根据环境视频中每一帧的环境图像,得到环境图像特征,并提取环境问题的语义特征,得到问题文本特征;将环境图像特征和问题文本特征进行加权融合,得到融合特征;将融合特征输入环境辨别模型,环境辨别模型根据融合特征,采用对应的激活函数和损失函数,得到预测答案。本发明能够在盲人提出问题时,及时的进行环境的辨别和反馈,使得具有视觉障碍的人群能感知到环境信息;且在交互技术中应用了视频问答技术,使得环境辨别的准确度大大提高,输出的辨别结果与实际情况更符合。

    一种视觉问答方法、系统及服务器

    公开(公告)号:CN113205507A

    公开(公告)日:2021-08-03

    申请号:CN202110540093.7

    申请日:2021-05-18

    摘要: 本发明提供一种视觉问答方法、系统及服务器,包括:获取输电设备的图像数据,图像数据包括视频数据和图片数据;预处理图像数据,得到原始数据集;对原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;对视觉问答数据集进行训练,得到视觉问答模型;输入问题文本和图片到视觉问答模型,得到视觉问答结果。本发明对图像数据进行视觉问答标注和语义分割标注,得到视觉问答数据集,从而建立了图像数据的语义分割与文本问答之间的图文链接;根据该视觉问答数据集训练得到的视觉问答模型,以图文链接作为锚点,将输入的图片与文本在语义上对齐,提高了视觉问答模型的性能,获得了更加准确的视觉问答结果。

    一种基于world-tacotron的语音合成方法、系统及服务器

    公开(公告)号:CN113129862A

    公开(公告)日:2021-07-16

    申请号:CN202110436317.X

    申请日:2021-04-22

    摘要: 本发明涉及一种人工智能技术领域,提供一种基于world‑tacotron的语音合成方法、系统及服务器,本发明在现有的tacotron模型基础上,将韵律信息融入端到端声学建模过程,引入双任务学习框架,主任务为改进的tacotron模型,学习基于字符级嵌入表示的声学特征参数预测;辅助任务为韵律生成模型,即韵律生成器,学习基于词级嵌入的韵律预测。本发明在训练阶段,通过双任务的联合训练,在模型训练中可以学习到更加显示的韵律知识,从而优化了输出语音的质量。