视频问答的交互方法及系统

    公开(公告)号:CN112860847B

    公开(公告)日:2022-08-19

    申请号:CN202110069976.4

    申请日:2021-01-19

    Abstract: 本发明涉及一种视频问答的交互方法及系统,所述交互方法包括:从待处理的原始视频及与问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;针对每帧图像中的每一目标,根据文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;根据文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;根据文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;根据文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;根据所述全局视觉特征表示及文本特征,可准确得到所述原始视频的问题答案。

    视频问答的交互方法及系统

    公开(公告)号:CN112860847A

    公开(公告)日:2021-05-28

    申请号:CN202110069976.4

    申请日:2021-01-19

    Abstract: 本发明涉及一种视频问答的交互方法及系统,所述交互方法包括:从待处理的原始视频及与问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;针对每帧图像中的每一目标,根据文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;根据文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;根据文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;根据文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;根据所述全局视觉特征表示及文本特征,可准确得到所述原始视频的问题答案。

    基于多层神经网络模型医学影像分析方法

    公开(公告)号:CN109191425B

    公开(公告)日:2022-02-11

    申请号:CN201810815480.5

    申请日:2018-07-23

    Abstract: 本发明公开了一种医学影像分析方法,包括:获取目标区域的造影视频和二维视频;基于所述二维视频,对所述造影视频进行配准,以补偿呼吸运动引起的偏差;构建神经网络模型,所述神经网络模型包括输入层、隐含层和输出层,其中,所述输入层和隐含层各包括卷积层、激活层和池化层,以及所述输出层包括全连接层;利用经配准的造影视频对所述神经网络模型进行训练,以生成经配准的造影视频的特征向量,其中,对经配准的造影视频进行数据增益和正则项约束;计算所述特征向量的预测权重,并选择预测权重高于权重阈值的特征向量,用于构建预测诊断模型。

    医学影像分析方法
    4.
    发明公开

    公开(公告)号:CN109191425A

    公开(公告)日:2019-01-11

    申请号:CN201810815480.5

    申请日:2018-07-23

    Abstract: 本发明公开了一种医学影像分析方法,包括:获取目标区域的造影视频和二维视频;基于所述二维视频,对所述造影视频进行配准,以补偿呼吸运动引起的偏差;构建神经网络模型,所述神经网络模型包括输入层、隐含层和输出层,其中,所述输入层和隐含层各包括卷积层、激活层和池化层,以及所述输出层包括全连接层;利用经配准的造影视频对所述神经网络模型进行训练,以生成经配准的造影视频的特征向量,其中,对经配准的造影视频进行数据增益和正则项约束;计算所述特征向量的预测权重,并选择预测权重高于权重阈值的特征向量,用于构建预测诊断模型。

    基于多模态预训练模型的跨模态理解与生成方法和装置

    公开(公告)号:CN113591902B

    公开(公告)日:2022-09-27

    申请号:CN202110653593.1

    申请日:2021-06-11

    Abstract: 本发明提供一种基于多模态预训练模型的跨模态理解与生成方法和装置,方法包括:确定待处理的多模态信息,多模态信息包括图像、文本和音频;将多模态信息输入至多模态预训练模型,学习所述多模态信息的相互关联,得到多模态信息的融合表示,将融合表示输入至理解和/或生成单元执行跨模态理解与生成任务,得到理解结果和/或生成结果。本发明提供的方法和装置,结合图像、文本和音频三个模态进行理解与生成,实现了信息的充分应用。跨模态理解和跨模态生成两个任务的结合,使得多模态预训练模型能够更加全面地进行特征提取和跨模态关联构建,从而进一步提高跨模态理解与生成的准确性。

    基于多模态预训练模型的跨模态理解与生成方法和装置

    公开(公告)号:CN113591902A

    公开(公告)日:2021-11-02

    申请号:CN202110653593.1

    申请日:2021-06-11

    Abstract: 本发明提供一种基于多模态预训练模型的跨模态理解与生成方法和装置,方法包括:确定待处理的多模态信息,多模态信息包括图像、文本和音频;将多模态信息输入至多模态预训练模型,学习所述多模态信息的相互关联,得到多模态信息的融合表示,将融合表示输入至理解和/或生成单元执行跨模态理解与生成任务,得到理解结果和/或生成结果。本发明提供的方法和装置,结合图像、文本和音频三个模态进行理解与生成,实现了信息的充分应用。跨模态理解和跨模态生成两个任务的结合,使得多模态预训练模型能够更加全面地进行特征提取和跨模态关联构建,从而进一步提高跨模态理解与生成的准确性。

Patent Agency Ranking