去偏缺失表格端到端预测方法及装置、电子设备

    公开(公告)号:CN117875287A

    公开(公告)日:2024-04-12

    申请号:CN202410046931.9

    申请日:2024-01-12

    申请人: 浙江大学

    IPC分类号: G06F40/18 G06N3/0455 G06N3/09

    摘要: 本发明公开了一种去偏缺失表格数据端到端预测方法,包括:获取缺失表格数据特征及标签矩阵,并生成相应的特征及标签缺失掩码矩阵;运用XGBoost模型逐列计算逆倾向评分,确定其对应的逆倾向评分矩阵;构建基于逆倾向评分的Transformer的神经网络模型;对缺失表格数据特征矩阵及特征缺失掩码矩阵进行掩蔽,利用重构掩蔽信息的方式结合逆倾向评分矩阵进行自监督预训练,得到预训练后的神经网络模型;将标记后的分类数据和连续数据通过线性层映射到高维;构建去偏半监督微调模块,利用重构误差及标签误差对预训练后的神经网络模型进行半监督微调,得到去偏表格数据预测模型;将缺失表格数据特征矩阵输入预测模型得到最终预测结果。

    一种基于PostgreSQL和众包的不完整数据查询处理方法

    公开(公告)号:CN106897373A

    公开(公告)日:2017-06-27

    申请号:CN201710038856.1

    申请日:2017-01-19

    申请人: 浙江大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于PostgreSQL和众包的不完整数据查询处理方法,该方法利用众包(又名群智计算)技术,将人类解决问题的优势应用到本发明中,对不完整数据进行补全,进一步对于补全后的数据进行Skyline查询、Top‑k查询和区域查询,返回更加满足用户需求的查询结果。本方法先通过计算中心确定需要清洗的数据,并通过扩展SQL数据定义语言生成用户接口;然后通过HIT管理器向众包平台发布任务,进行数据补全;最后根据补全后的数据进行查询,得到查询结果。本发明基于PostgreSQL,为应用程序开发者提供了通用的查询接口,利用众包技术对数据进行补全,且查询效率、查询结果准确性明显好于现有的方法,提供了最佳性能。

    一种空间数据库中排序反向轮廓查询方法

    公开(公告)号:CN103778195B

    公开(公告)日:2017-01-18

    申请号:CN201410007280.9

    申请日:2014-01-07

    申请人: 浙江大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种空间数据库中排序反向轮廓查询方法。选用了广泛使用的R树对查询集建立索引;在此基础上本发明首先开发了排序反向轮廓过滤引擎,得到最终结果的一个上限;接着开发了开发基于动态轮廓裁剪和全局轮廓裁剪的排序反向轮廓裁剪引擎,来消除其中错误的命中;最后开发了排序引擎对查询结果进行合并,并按顺序得到最终的查询结果。

    药物互作用预测模型的构建方法、预测方法及装置

    公开(公告)号:CN114974408B

    公开(公告)日:2024-09-06

    申请号:CN202210588763.7

    申请日:2022-05-26

    申请人: 浙江大学

    IPC分类号: G16B15/30 G06N3/0464 G06N3/09

    摘要: 本发明公开了一种药物互作用预测模型的构建方法、预测方法及装置,包括收集整理药物、内源蛋白质的分子线性表示及这些分子间的互作用,所述药物包括化学药和生物药;使用所述分子线性表示及这些分子间的互作用,构造外层互作用图连接性增强、内层分子结构图数据量扩充的双视角异构图;搭建以双视角异构图为输入的药物互作用预测模型,所述模型包括双视角异构图表征模块和双视角融合预测模块,所述双视角异构图表征模块基于图神经网络学习各视角下药物和内源蛋白质的表征,随后所述双视角融合预测模块结合双视角给出预测;训练所搭建的模型并调整其超参数,得到面向化学药和生物药的多类型药物互作用预测模型。

    基于数据关联性挖掘的多模态医疗缺失数据补全方法及装置

    公开(公告)号:CN116795826A

    公开(公告)日:2023-09-22

    申请号:CN202310799551.8

    申请日:2023-07-03

    申请人: 浙江大学

    摘要: 本发明公开了一种基于数据关联性挖掘的多模态医疗缺失数据补全方法及装置,该方法包括:获取存在数据缺失问题的原始多模态医疗数据。根据所获取的原始多模态数据,构建基于数据关联性挖掘的生成器模型和掩码能量判别器模型。将构建好的基于数据关联性挖掘的生成器模型和掩码能量判别器模型进行结合,利用原始多模态医疗数据对结合后的模型进行博弈优化训练。通过训练好的生成器模型完成对缺失数据的补全,得到完整数据。本发明针对多模态数据缺失的问题,采用基于挖掘多模态数据间关联性的方法以有效进行数据补全,具有补全精度高,模型复杂度低等优点。

    一种基于深度学习的不对称催化反应对映选择性预测方法

    公开(公告)号:CN113362905A

    公开(公告)日:2021-09-07

    申请号:CN202110637110.9

    申请日:2021-06-08

    申请人: 浙江大学

    摘要: 本发明公开了一种基于深度学习的不对称催化反应对映选择性预测方法。该方法首先获取并整理异氰基乙酸酯参与的不对称催化反应数据,并设计模型训练集与样本外测试集;计算并处理反应涉及化合物的分子描述符,将其与反应条件汇总为一组特征向量输入模型;基于训练集分别构建深度神经网络和卷积神经网络回归模型并优化其超参数,进而获得能准确预测训练集反应对映选择性的模型;利用最佳神经网络模型预测样本外反应的对映选择性,检验模型的可迁移性。结果表明,该模型能够较准确地预测样本外反应的对映选择性,进一步验证了模型的稳健性与可迁移性。

    社交网络种子用户选择方法和装置、电子设备、存储介质

    公开(公告)号:CN113222774A

    公开(公告)日:2021-08-06

    申请号:CN202110419666.0

    申请日:2021-04-19

    申请人: 浙江大学

    IPC分类号: G06Q50/00

    摘要: 本发明公开了一种社交网络种子用户选择方法和装置、电子设备、存储介质。该方法包括:对社交网络和用户行为进行建模,得到时间感知的社交网络传播模型;根据所述社交网络传播模型,多次选择任意用户进行反向传播模拟,记录反向传播模拟中被激活的用户,将这些用户组成反向可达集RRsets;根据所述反向可达集RRsets,使用用户集与所述反向可达集RRsets的交集个数代表用户集中任意用户的近似影响力,基于所述近似影响力贪心选择预定数目的用户,作为社交网络中的种子用户。本发明方法具有高效性和鲁棒性。

    用于众包系统的动态激励计算方法、系统、设备及介质

    公开(公告)号:CN111639969A

    公开(公告)日:2020-09-08

    申请号:CN202010466953.2

    申请日:2020-05-28

    申请人: 浙江大学

    IPC分类号: G06Q30/02 G06N3/04

    摘要: 本发明公开了一种用于众包系统的动态激励计算方法和系统,该方法包括获取需求者在众包平台上的任务数据以及参与用户的历史任务问答数据;将任务分配给参与用户;针对每个参与用户构建一个循环神经网络模型;根据参与用户的历史任务问答数据,训练循环神经网络模型;依据参与用户、任务以及循环神经网络模型的预测结果,计算不同激励值所带来的最终收益大小判断是否给予当前用户激励值;收集所有参与用户的答案,以得到需求者所需的结果。在解决在线收益计算问题时,本发明同样提出了一种简洁高效的算法。模拟实验证实了本发明在复杂情况下的高效性和鲁棒性。众包平台上的实际实验也显示了本发明相对于传统方法的高效性及优越性。

    一种基于双色反最近邻查询的最优选址方法

    公开(公告)号:CN103778196B

    公开(公告)日:2017-01-18

    申请号:CN201410007605.3

    申请日:2014-01-07

    申请人: 浙江大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于双色反最近邻查询的最优选址方法。利用空间数据库中双色反最近邻查询技术,将空间四分法和泰森多边形应用到本发明中,保证查询结果具有最多的反最近邻,并使得查询结果到各自反最近邻的最小距离最大。本方法先为每个客户点生成最近位置圆域;接着用四分法找到矩形区域,并使得该区域落在尽可能多的最近位置圆域交集中;然后用两个有效的剪枝规则对上一步得到的与矩形区域相关的最近位置圆域集合进行修剪;最后根据修剪后的最近位置圆域集合及其泰森多边形找出最佳位置点。本发明极大地减少了查询的搜索空间,且查询效率明显好于现有方法,提供了最佳性能。

    一种空间数据库中分组反向轮廓查询方法

    公开(公告)号:CN103778198A

    公开(公告)日:2014-05-07

    申请号:CN201410007699.4

    申请日:2014-01-07

    申请人: 浙江大学

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30327 G06F17/30424

    摘要: 本发明公开了一种空间数据库中分组反向轮廓查询方法。充分利用将现有的数据库管理系统平台和空间数据库引擎相结合构建而成的空间数据库系统,以及现有的空间数据库索引技术,本发明选用了R树作为分组反向轮廓查询方法的索引。在此基础上本发明首先开发了分组引擎,将多组混合在一起的数据进行有效的分离。接着开发了全局轮廓计算引擎,它计算出每组的第一层和第二层全局轮廓,其中第一层全局轮廓是作为最终查询结果的候选集,而第二层全局轮廓则用于后续的执行。最后开发了全局轮廓比较引擎,它能够有效地排除第一层全局轮廓中的错误命中,并得到每一组的最终反向轮廓。