Patent search ap:("电子科技大学") AND inv:"周书畅" Page 1

1.

发明公开
一种基于预训练模型定位知识嵌入的零样本目标检测方法审中-实审

公开(公告)号：CN118887382A

公开(公告)日：2024-11-01

申请号：CN202410896916.3

申请日：2024-07-05

Applicant: 电子科技大学

Inventor： 吴庆波 , 何明洲 , 周书畅 , 李宏亮 , 孟凡满 , 许林峰 , 潘力立

IPC: G06V10/25 , G06V10/22 , G06V10/766 , G06V10/764 , G06V10/74 , G06V10/774

Abstract: 本发明公开了一种基于预训练模型定位知识嵌入的零样本目标检测方法，属于深度学习目标检测领域。本发明在COCO数据集基础上，构建一个区域图像、IoU标签的数据集(Region‑IoU)。然后使用该数据集对传统的视觉语言模型CLIP进行微调以及学习对IoU敏感的语义提示。使得的IoU‑CLIP模型具备局部目标定位的相关知识，能够预测检测框的IoU分数以及生成类无关IoU敏感的视觉特征。最后将该特征与IoU分数集成进开放词汇零样本检测框架。本发明可以有效地提升开放词汇零样本目标检测任务的性能。

2.

发明公开
一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法审中-实审

公开(公告)号：CN119203019A

公开(公告)日：2024-12-27

申请号：CN202411024976.2

申请日：2024-07-29

Applicant: 电子科技大学

Inventor： 吴庆波 , 周书畅 , 王浩杰 , 李宏亮 , 孟凡满 , 许林峰

IPC: G06F18/25 , G06V40/20 , G06V20/40 , G06F18/22 , G06F18/213 , G06V10/44 , G06V10/82 , G06N3/0455 , G06N3/096

Abstract: 该发明公开了一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法，属于多模态行为识别领域。本发明首先将视觉模态输入预训练的CLIP视觉编码器提取视觉特征，将经过STFT变换的加速度计模态、陀螺仪模态频谱图提取对应的特征，文本通过预训练的CLIP文本编码器提取到文本特征。然后将视觉特征传入到适配器模块，将零样本知识与新的自适应特征知识进行动态结合，得到最终的视觉特征。加速度计模态、陀螺仪模态通过惯性传感器融合模块得到最终的惯性传感器特征。最后将文本、视觉、惯性传感器特征一同输入多模态融合模块，充分考虑不同模态间对齐的问题，有效地提升模态融合的效果。该方法在零样本多模态第一视角行为识别任务上表现令人满意。

Patent Agency Ranking