-
公开(公告)号:CN118521930A
公开(公告)日:2024-08-20
申请号:CN202310184577.1
申请日:2023-02-20
Applicant: 杭州海康威视数字技术股份有限公司 , 浙江大学
Abstract: 本发明公开了一种基于人机混合智能的视频像素级标注方法、装置。其步骤如下:1)使用交互式像素标注工具对视频帧进行稀疏的人工标注;2)使用基于像素匹配的卷积神经网络对稀疏标注的实例物体进行自动追踪匹配;3)利用时序变换神经网络自动将稀疏的视频帧像素标注扩展为密集标注;4)进行半自动低质量标注帧检测;人工修复该帧后作为时序变换神经网络的输入,进一步提升密集标注质量,多轮次迭代后达到用户满意的标注精度。本发明适用于大规模视频的像素级语义与实例标注,大幅度提升视频数据标注效率,且准确性好、标注质量高。本发明对于大规模视频数据标注和分析具有十分重要的实际应用价值。
-
公开(公告)号:CN118364478A
公开(公告)日:2024-07-19
申请号:CN202310096060.7
申请日:2023-01-18
Applicant: 杭州海康威视数字技术股份有限公司 , 浙江大学
Abstract: 本申请提供一种数据处理方法、系统及设备,该方法包括:获取待训练网络模型对应的目标梯度数据;将目标梯度数据发送给GPU,通过GPU对所述目标梯度数据进行加密,得到加密后梯度数据,并从GPU获取所述加密后梯度数据;将加密后梯度数据发送给服务端,由服务端对多个客户端的加密后梯度数据进行同态运算,得到加密后的聚合梯度数据;从服务端获取加密后的聚合梯度数据,将加密后的聚合梯度数据发送给GPU,通过GPU对加密后的聚合梯度数据进行解密,得到解密后的聚合梯度数据,并从GPU获取聚合梯度数据;基于聚合梯度数据对待训练网络模型进行训练,得到已训练的目标网络模型。通过本申请的技术方案,能够满足数据隐私需求,保证数据安全。
-
公开(公告)号:CN111528859B
公开(公告)日:2023-04-18
申请号:CN202010401503.5
申请日:2020-05-13
Applicant: 浙江大学人工智能研究所德清研究院
IPC: A61B5/11 , A61B5/16 , A61B5/00 , G06V40/70 , G06F18/214 , G06F18/24 , G06N3/0442 , G06N3/0464 , G06N3/084
Abstract: 一种基于多模态深度学习技术的儿童ADHD筛查评估系统,包括:量表测试模块,用于通过ADHD诊断心理学量表采集和评估就诊儿童;软硬件协同模块,用于开发测试软件让就诊儿童完成任务,硬件模组用于记录任务测试过程中的眼动注意力、表情和身体姿态三方面信息;智能分析模块,用于运用计算机视觉技术进行眼动注意力、表情、姿态的分析,还对测试者的鼠标移动、点击和键盘输入动作也做了记录和跟踪,与同质化向量融合;多模态信息融合模型,采用时序多模态信息融合模型BERT,对某个特定时间片段中获取的同质化向量结合测试结果进行预训练,最终生成的模型判断患者在本时间段是否存在异常行为的分类结果。本发明效率较高、准确性较好。
-
公开(公告)号:CN111222487B
公开(公告)日:2021-09-28
申请号:CN202010043763.X
申请日:2020-01-15
Applicant: 浙江大学
Abstract: 本发明公开了一种视频目标行为识别方法及电子设备,该方法包括:获取待识别视频,其中,所述视频包含待识别视频的图像帧;通过目标检测模型获取一个或多个局部目标图像;通过目标追踪模型,对获取的局部目标图像进行匹配,获取一个或多个目标图像序列;通过目标行为质量评分模型,对每个目标图像序列中的目标图像行为进行质量评分,获取高质量的目标图像子序列;通过行为识别模型,对获取的高质量目标图像子序列进行行为识别,得到行为识别结果。该方法仅对视频目标图像序列中的高质量目标图像子序列进行行为识别,一方面消除了低质量目标行为识别结果对整体视频目标行为识别结果的影响;另一方面,由于仅识别高质量目标行为,可提升了视频目标行为识别效率;该方法能够满足用户的实际应用需要,适用性强。
-
公开(公告)号:CN111241807B
公开(公告)日:2021-06-29
申请号:CN201911423787.1
申请日:2019-12-31
Applicant: 浙江大学
IPC: G06F40/205 , G06F40/289 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种基于知识引导注意力的机器阅读理解方法。该方法包括如下步骤:(1)利用预训练的词嵌入矩阵得到本文序列的词向量;(2)利用双向GRU网络来对文本中每个单词的上下文信息进行建模;(3)将问题的上下文表示作为初始隐藏层状态输入到单向GRU网络,GRU网络使用基于注意力的回看机制迭代地执行搜索步骤以收集文章中可能用于预测答案的信息;(4)将外部知识作为长期记忆加入回看机制,在回看过程中来引导注意力的焦点,模型会重新分配注意力分数;(5)在单向GRU网络的输出端经过指针网络得到预测的答案。本发明是一个端到端的模型,不需要未标注语料集中除预训练好的词向量之外的数据预处理,因此本发明能在不同的语言和领域的阅读理解中有广泛应用。
-
公开(公告)号:CN112348102B
公开(公告)日:2024-03-19
申请号:CN202011278817.7
申请日:2020-11-16
Applicant: 浙江大学 , 杭州海康威视数字技术股份有限公司
IPC: G06V20/40 , G06V10/82 , G06V10/80 , G06V10/764 , G06V10/766 , G06F16/783
Abstract: 本发明公开了一种基于查询的自底向上视频定位方法和系统。首先,获取查询内容Query和待定位视频Ref,其次将查询内容Query特征与待定位视频Ref的特征融合到一个全新的特征图#imgabs0#中。最后特征图#imgabs1#通过深度学习方法检测出查询内容Query所对应的真实视频片段GT‑v位于待定位视频Ref中的起始位置和终止位置。本发明方法根据查询内容Query可以准确而又高效的识别真实视频片段GT‑v在待定位视频Ref的起始位置和终止位置。
-
公开(公告)号:CN112232416B
公开(公告)日:2021-09-14
申请号:CN202011109339.7
申请日:2020-10-16
Applicant: 浙江大学
Abstract: 本申请提供一种基于伪标签加权的半监督学习方法,所述方法包括:获取待训练的有标签和无标签样本,得到有标签和无标签训练集;在有标签训练集上进行模型训练,得到有标签训练模型;基于有标签训练模型对无标签训练集进行预测,得到无标签训练集的伪标签;输入伪标签至标签适配模块,得到加权后的伪标签;基于深度神经网络对获取的有标签训练集和伪标签训练集进行训练,得到半监督学习后的机器学习模型。本发明能够对含有无标签的数据场景进行半监督训练,在不对无标签数据进行标注情况下,进一步提高模型的场景适应能力,有效解决典型的开集误报问题、类别间误报问题和漏报问题,从而得到更高的模型性能。
-
公开(公告)号:CN112881249A
公开(公告)日:2021-06-01
申请号:CN202110344752.X
申请日:2021-03-29
Applicant: 杭州海康威视数字技术股份有限公司 , 浙江大学
IPC: G01N15/02
Abstract: 本发明公开了一种测量输送带上宽筛分颗粒粒度的测量装置:单光源多光束激光发射系统,包括激光器、光纤分束器和准直扩束器;激光器发射的激光束依次经光纤分束器和准直扩束器限制成直径不同的准直平行光束,照射输送带形成直径不同的多光斑,颗粒经过光斑产生散射光信号;散射光信号采集系统,包括三条采集通道,用于将散射光信号依次经透镜和分束器分开记录在不同光电探测器上,得到散射光强度‑时间图像;散射光信号处理系统,通过对散射光强度‑时间图像进行模式识别和反演,获得颗粒的粒径。本发明还公开了一种采用上述测量装置的测量方法。该装置和方法基于光散射原理,可以实现宽筛分布颗粒粒度的在线原位测量,测量结果准确及时。
-
公开(公告)号:CN111741236A
公开(公告)日:2020-10-02
申请号:CN202010857184.9
申请日:2020-08-24
Applicant: 浙江大学
IPC: H04N5/278 , H04N21/488 , H04N21/81 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于共识图表征推理的定位自然图像字幕生成方法和装置。该方法包括如下步骤:S1:以预先提取的视觉场景图及文本场景图作为先验知识,通过结构对抗学习方法从图先验中进行演绎与推理,生成作为共识知识的共识图表征;S2:基于视觉空间图与共识图表征,结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述;S3:在S2中生成文本描述的同时,根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域。本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性,从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题,并获取更优的字幕生成与对象定位性能。
-
公开(公告)号:CN111241807A
公开(公告)日:2020-06-05
申请号:CN201911423787.1
申请日:2019-12-31
Applicant: 浙江大学
IPC: G06F40/205 , G06F40/289 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种基于知识引导注意力的机器阅读理解方法。该方法包括如下步骤:(1)利用预训练的词嵌入矩阵得到本文序列的词向量;(2)利用双向GRU网络来对文本中每个单词的上下文信息进行建模;(3)将问题的上下文表示作为初始隐藏层状态输入到单向GRU网络,GRU网络使用基于注意力的回看机制迭代地执行搜索步骤以收集文章中可能用于预测答案的信息;(4)将外部知识作为长期记忆加入回看机制,在回看过程中来引导注意力的焦点,模型会重新分配注意力分数;(5)在单向GRU网络的输出端经过指针网络得到预测的答案。本发明是一个端到端的模型,不需要未标注语料集中除预训练好的词向量之外的数据预处理,因此本发明能在不同的语言和领域的阅读理解中有广泛应用。
-
-
-
-
-
-
-
-
-