专利检索 ap:("浙江大学") AND inv:"沈子栋" 第 1 页

1.

发明公开
一种端到端的手语翻译方法和系统审中-实审

公开(公告)号：CN113657257A

公开(公告)日：2021-11-16

申请号：CN202110937441.4

申请日：2021-08-16

申请人： 浙江大学

发明人： 赵洲 , 程诗卓 , 沈子栋 , 尹傲雄

IPC分类号： G06K9/00 , G06N5/02 , G06N20/00

摘要： 本发明公开了一种端到端的手语翻译方法，属于手语翻译技术领域。1)获取手语视频及对应的目标注解序列、目标文本序列；2)建立手语翻译模型；由特征提取器提取手语视频的视觉特征并经掩膜编码器进行编码，编码结果分为三支路进行解码，第一支路中首先由边界预测器预测词边界，再由辅助注解解码器结合边界预测器的输出结果预测注解序列；第二支路中将编码结果进行线性映射后作为CTC解码器的输入，生成预测注解序列；第三支路中编码结果作为wait‑k解码器的输入，输出预测文本序列；3)利用训练好的手语翻译模型对待翻译的手语视频进行特征提取和编码，再将编码结果作为wait‑k解码器的输入，生成预测文本序列作为翻译结果。

2.

发明授权
一种端到端的手语翻译方法和系统有权

公开(公告)号：CN113657257B

公开(公告)日：2023-12-19

申请号：CN202110937441.4

申请日：2021-08-16

申请人： 浙江大学

发明人： 赵洲 , 程诗卓 , 沈子栋 , 尹傲雄

IPC分类号： G06V40/20 , G06V10/44 , G06V10/82 , G06N3/0455 , G06N3/096 , G06N3/09

摘要： 本发明公开了一种端到端的手语翻译方法，属于手语翻译技术领域。1)获取手语视频及对应的目标注解序列、目标文本序列；2)建立手语翻译模型；由特征提取器提取手语视频的视觉特征并经掩膜编码器进行编码，编码结果分为三支路进行解码，第一支路中首先由边界预测器预测词边界，再由辅助注解解码器结合边界预测器的输出结果预测注解序列；第二支路中将编码结果进行线性映射后作为CTC解码器的输入，生成预测注解序列；第三支路中编码结果作为wait‑k解码器的输入，输出预测文本序列；3)利用训练好的手语翻译模型对待翻译的手语视频进行特征提取和编码，再将编码结果作为wait‑k解码器的输入，生成预测文本序列作为翻译结果。

3.

发明授权
使用注意力引导自适应记忆的实时唇语识别方法和系统有权

公开(公告)号：CN113657253B

公开(公告)日：2023-12-05

申请号：CN202110935654.3

申请日：2021-08-16

申请人： 浙江大学

发明人： 赵洲 , 程诗卓 , 沈子栋 , 林志杰

IPC分类号： G06V40/20 , G06V10/82 , G06N3/0464 , G06N3/08 , G06N3/0455 , G06V10/776

摘要： 本发明公开了一种使用注意力引导自适应记忆的实时唇语识别方法和系统，属于唇语识别技术领域。为了解决在生成句子的句法结构的同时考虑单调排列的挑战，本发明建立了SimulLR模型并采用CTC预训练、模型预热和课程学习的方式促进SimulLR模型的训练。此外，为了使得编码器学习到更好的时空表示，本发明构造了一个截断三维时空卷积网络和时限自注意机制在视频片段内实现帧对帧的交互。此外，由于在实时场景中的存储有限，历史信息总是受到限制，为了实现一个好的权衡，本发明设计了注意力引导自适应记忆模块来组织历史语义信息，并在可接受的计算感知延迟范围内增强视觉表示。可实现实时解码，适用于更多应用场景。

4.

发明授权
手语生成方法和系统有权

公开(公告)号：CN113657127B

公开(公告)日：2023-08-18

申请号：CN202110935678.9

申请日：2021-08-16

申请人： 浙江大学

发明人： 赵洲 , 程诗卓 , 沈子栋 , 黄文璨 , 潘文雯

IPC分类号： G11B27/031 , G06N3/045 , G06N3/0464 , G06N3/08

摘要： 本发明公开了一种手语生成方法和系统，属于手语生成领域。获取手语注解序列与目标手势姿态序列；将手续注解序列通过一个非自回归模型生成预测的手势姿态序列；在非自回归模型中，手语注解序列经过嵌入及位置编码后，由第一Transformer网络转换为注解同步特征序列，由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间，通过长度调节器将注解同步特征序列扩展到姿态同步特征序列，然后依次由另一个Transformer网络和时空图卷积姿态生成器变换为手势姿态序列；根据预测得到的手势姿态序列合成手语视频；在对非自回归模型进行训练时，引入一个外部对齐器以获得每个注解的目标对数持续时间。

5.

发明公开
视听事件定位方法和系统审中-实审

公开(公告)号：CN113971776A

公开(公告)日：2022-01-25

申请号：CN202111202501.4

申请日：2021-10-15

申请人： 浙江大学

发明人： 赵洲 , 夏炎 , 姜伟昊 , 沈子栋

IPC分类号： G06V20/40 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08 , G10L21/0208 , G10L25/57

摘要： 本发明公开了一种视听事件定位方法和系统，属于视听事件定位领域。为了更好地解决AVE任务中存在的音视频信息不一致的问题，本发明提出了一种新的时间级和事件级跨模态背景抑制网络，将音频和视频信息作为彼此的监控信号。此外，为了抑制一种模式中的低概率事件，本发明使用音频和视觉预测的CAS分数来实现；此外，为更好地从复杂的视频帧中提取关键的视觉区域特征，本发明设计了一个跨模态门控注意模块(CMGA)。本发明可高效完成完全监督和弱监督AVE任务及弱监督AVVB任务。

6.

发明公开
使用注意力引导自适应记忆的实时唇语识别方法和系统审中-实审

公开(公告)号：CN113657253A

公开(公告)日：2021-11-16

申请号：CN202110935654.3

申请日：2021-08-16

申请人： 浙江大学

发明人： 赵洲 , 程诗卓 , 沈子栋 , 林志杰

IPC分类号： G06K9/00 , G06K9/62 , G06N3/04 , G06N3/08

摘要： 本发明公开了一种使用注意力引导自适应记忆的实时唇语识别方法和系统，属于唇语识别技术领域。为了解决在生成句子的句法结构的同时考虑单调排列的挑战，本发明建立了SimulLR模型并采用CTC预训练、模型预热和课程学习的方式促进SimulLR模型的训练。此外，为了使得编码器学习到更好的时空表示，本发明构造了一个截断三维时空卷积网络和时限自注意机制在视频片段内实现帧对帧的交互。此外，由于在实时场景中的存储有限，历史信息总是受到限制，为了实现一个好的权衡，本发明设计了注意力引导自适应记忆模块来组织历史语义信息，并在可接受的计算感知延迟范围内增强视觉表示。可实现实时解码，适用于更多应用场景。

7.

发明公开
手语生成方法和系统审中-实审

公开(公告)号：CN113657127A

公开(公告)日：2021-11-16

申请号：CN202110935678.9

申请日：2021-08-16

申请人： 浙江大学

发明人： 赵洲 , 程诗卓 , 沈子栋 , 黄文璨 , 潘文雯

IPC分类号： G06F40/58 , G06K9/00 , G06N3/04 , G06N3/08 , G06N5/04

摘要： 本发明公开了一种手语生成方法和系统，属于手语生成领域。获取手语注解序列与目标手势姿态序列；将手续注解序列通过一个非自回归模型生成预测的手势姿态序列；在非自回归模型中，手语注解序列经过嵌入及位置编码后，由第一Transformer网络转换为注解同步特征序列，由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间，通过长度调节器将注解同步特征序列扩展到姿态同步特征序列，然后依次由另一个Transformer网络和时空图卷积姿态生成器变换为手势姿态序列；根据预测得到的手势姿态序列合成手语视频；在对非自回归模型进行训练时，引入一个外部对齐器以获得每个注解的目标对数持续时间。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类