一种端到端的手语翻译方法和系统

    公开(公告)号:CN113657257A

    公开(公告)日:2021-11-16

    申请号:CN202110937441.4

    申请日:2021-08-16

    申请人: 浙江大学

    IPC分类号: G06K9/00 G06N5/02 G06N20/00

    摘要: 本发明公开了一种端到端的手语翻译方法,属于手语翻译技术领域。1)获取手语视频及对应的目标注解序列、目标文本序列;2)建立手语翻译模型;由特征提取器提取手语视频的视觉特征并经掩膜编码器进行编码,编码结果分为三支路进行解码,第一支路中首先由边界预测器预测词边界,再由辅助注解解码器结合边界预测器的输出结果预测注解序列;第二支路中将编码结果进行线性映射后作为CTC解码器的输入,生成预测注解序列;第三支路中编码结果作为wait‑k解码器的输入,输出预测文本序列;3)利用训练好的手语翻译模型对待翻译的手语视频进行特征提取和编码,再将编码结果作为wait‑k解码器的输入,生成预测文本序列作为翻译结果。

    一种端到端的手语翻译方法和系统

    公开(公告)号:CN113657257B

    公开(公告)日:2023-12-19

    申请号:CN202110937441.4

    申请日:2021-08-16

    申请人: 浙江大学

    摘要: 本发明公开了一种端到端的手语翻译方法,属于手语翻译技术领域。1)获取手语视频及对应的目标注解序列、目标文本序列;2)建立手语翻译模型;由特征提取器提取手语视频的视觉特征并经掩膜编码器进行编码,编码结果分为三支路进行解码,第一支路中首先由边界预测器预测词边界,再由辅助注解解码器结合边界预测器的输出结果预测注解序列;第二支路中将编码结果进行线性映射后作为CTC解码器的输入,生成预测注解序列;第三支路中编码结果作为wait‑k解码器的输入,输出预测文本序列;3)利用训练好的手语翻译模型对待翻译的手语视频进行特征提取和编码,再将编码结果作为wait‑k解码器的输入,生成预测文本序列作为翻译结果。

    使用注意力引导自适应记忆的实时唇语识别方法和系统

    公开(公告)号:CN113657253B

    公开(公告)日:2023-12-05

    申请号:CN202110935654.3

    申请日:2021-08-16

    申请人: 浙江大学

    摘要: 本发明公开了一种使用注意力引导自适应记忆的实时唇语识别方法和系统,属于唇语识别技术领域。为了解决在生成句子的句法结构的同时考虑单调排列的挑战,本发明建立了SimulLR模型并采用CTC预训练、模型预热和课程学习的方式促进SimulLR模型的训练。此外,为了使得编码器学习到更好的时空表示,本发明构造了一个截断三维时空卷积网络和时限自注意机制在视频片段内实现帧对帧的交互。此外,由于在实时场景中的存储有限,历史信息总是受到限制,为了实现一个好的权衡,本发明设计了注意力引导自适应记忆模块来组织历史语义信息,并在可接受的计算感知延迟范围内增强视觉表示。可实现实时解码,适用于更多应用场景。

    手语生成方法和系统
    4.
    发明授权

    公开(公告)号:CN113657127B

    公开(公告)日:2023-08-18

    申请号:CN202110935678.9

    申请日:2021-08-16

    申请人: 浙江大学

    摘要: 本发明公开了一种手语生成方法和系统,属于手语生成领域。获取手语注解序列与目标手势姿态序列;将手续注解序列通过一个非自回归模型生成预测的手势姿态序列;在非自回归模型中,手语注解序列经过嵌入及位置编码后,由第一Transformer网络转换为注解同步特征序列,由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间,通过长度调节器将注解同步特征序列扩展到姿态同步特征序列,然后依次由另一个Transformer网络和时空图卷积姿态生成器变换为手势姿态序列;根据预测得到的手势姿态序列合成手语视频;在对非自回归模型进行训练时,引入一个外部对齐器以获得每个注解的目标对数持续时间。

    视听事件定位方法和系统
    5.
    发明公开

    公开(公告)号:CN113971776A

    公开(公告)日:2022-01-25

    申请号:CN202111202501.4

    申请日:2021-10-15

    申请人: 浙江大学

    摘要: 本发明公开了一种视听事件定位方法和系统,属于视听事件定位领域。为了更好地解决AVE任务中存在的音视频信息不一致的问题,本发明提出了一种新的时间级和事件级跨模态背景抑制网络,将音频和视频信息作为彼此的监控信号。此外,为了抑制一种模式中的低概率事件,本发明使用音频和视觉预测的CAS分数来实现;此外,为更好地从复杂的视频帧中提取关键的视觉区域特征,本发明设计了一个跨模态门控注意模块(CMGA)。本发明可高效完成完全监督和弱监督AVE任务及弱监督AVVB任务。

    使用注意力引导自适应记忆的实时唇语识别方法和系统

    公开(公告)号:CN113657253A

    公开(公告)日:2021-11-16

    申请号:CN202110935654.3

    申请日:2021-08-16

    申请人: 浙江大学

    摘要: 本发明公开了一种使用注意力引导自适应记忆的实时唇语识别方法和系统,属于唇语识别技术领域。为了解决在生成句子的句法结构的同时考虑单调排列的挑战,本发明建立了SimulLR模型并采用CTC预训练、模型预热和课程学习的方式促进SimulLR模型的训练。此外,为了使得编码器学习到更好的时空表示,本发明构造了一个截断三维时空卷积网络和时限自注意机制在视频片段内实现帧对帧的交互。此外,由于在实时场景中的存储有限,历史信息总是受到限制,为了实现一个好的权衡,本发明设计了注意力引导自适应记忆模块来组织历史语义信息,并在可接受的计算感知延迟范围内增强视觉表示。可实现实时解码,适用于更多应用场景。

    手语生成方法和系统
    7.
    发明公开

    公开(公告)号:CN113657127A

    公开(公告)日:2021-11-16

    申请号:CN202110935678.9

    申请日:2021-08-16

    申请人: 浙江大学

    摘要: 本发明公开了一种手语生成方法和系统,属于手语生成领域。获取手语注解序列与目标手势姿态序列;将手续注解序列通过一个非自回归模型生成预测的手势姿态序列;在非自回归模型中,手语注解序列经过嵌入及位置编码后,由第一Transformer网络转换为注解同步特征序列,由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间,通过长度调节器将注解同步特征序列扩展到姿态同步特征序列,然后依次由另一个Transformer网络和时空图卷积姿态生成器变换为手势姿态序列;根据预测得到的手势姿态序列合成手语视频;在对非自回归模型进行训练时,引入一个外部对齐器以获得每个注解的目标对数持续时间。