基于Spark的分布式大规模矩阵乘法的矩阵计算方法

    公开(公告)号:CN105426344A

    公开(公告)日:2016-03-23

    申请号:CN201510758182.3

    申请日:2015-11-09

    Applicant: 南京大学

    Inventor: 黄宜华 顾荣 唐云

    CPC classification number: G06F17/16

    Abstract: 本发明公开了一种基于Spark的分布式大规模矩阵乘法的矩阵计算方法,包括以下步骤:采用了一种基于分布式计算执行引擎Spark和单机线性代数库BLAS的系统框架;在该分布式系统中,定义与封装矩阵的相关运算接口,从分布式文件系统中读取矩阵文件,针对分布式计算环境的资源量以及待处理矩阵的规模,选择合适的方案执行分布式乘法:若两个矩阵规模都很小,汇集到本地进行单机乘法;若其中一个矩阵规模较小,则广播该矩阵执行乘法;若两个矩阵规模均很大,采用基于分块的分布式矩阵乘法。针对后两种情况,本发明分别提出了两种高效的解决方案,解决了现有的大数据处理平台对分布式矩阵运算的性能低,扩展性不好的问题。

    基于句号特征字串的中文网页重复文档检测和过滤方法

    公开(公告)号:CN102945244A

    公开(公告)日:2013-02-27

    申请号:CN201210359942.X

    申请日:2012-09-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于句号特征字串的中文网页重复文档检测和过滤方法,包括如下步骤:提取待检测网页的句号特征字串;利用所述句号特征字串对待检测网页进行模板信息过滤以便保留和提取网页主题文本内容;计算所述网页主题文本内容的相似度,判定网页之间的重复关系和包含关系;将具有重复关系和包含关系的网页进行聚类。本发明针对中文网页,尤其是中文新闻网页,首先寻找有效的检测特征,能有效检测出网页上的有效正文部分,过滤掉网页上的广告等与主题正文内容无关的噪音部分;在此基础上,解决两两文档之间的相似性度量问题以及文档重复检测问题;最后解决大规模重复文档检测时的并行化处理问题。

    一种机器学习流水线自动化设计的方法

    公开(公告)号:CN111459988B

    公开(公告)日:2023-09-05

    申请号:CN202010446642.X

    申请日:2020-05-25

    Applicant: 南京大学

    Abstract: 本发明公开了一种机器学习流水线自动化设计方法,将机器学习流水线的构建过程分为两部分:结构搜索和超参调优,将结构搜索过程建模为强化学习问题,使用强化学习算法学习搜索策略;在确定了机器学习流水线的超参数后,再使用贝叶斯优化对其进行超参配置,强化学习过程和超参调优过程是交替进行的,并在此基础上实现了两种并行化方法。本发明相比于以前方法,可处理特征类型多样,提升了流水线的性能,并且扩展性更强。

    一种渐进式的大规模图神经网络架构搜索方法

    公开(公告)号:CN116341610A

    公开(公告)日:2023-06-27

    申请号:CN202310289395.0

    申请日:2023-03-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种渐进式的大规模图神经网络架构搜索方法,包括如下步骤:在大规模图结构数据集上,通过子图采样获取K个子图;利用可微分架构搜索方法,分别在K个子图上进行架构搜索,得到K个候选种子架构;得到K个候选种子架构后,在大规模图以及K个子图中,分别评估每个候选种子架构在验证集上的性能。评估结束后,原始图和每个子图都得到一个长度为K的架构性能排名序列,利用肯德尔系数,选出与原图排名序列最相关的子图,并选择子图对应的架构作为种子架构;对于种子架构,基于最小熵原则进行迭代式扩增。当子图规模达到阈值或者架构性能不再提升时,停止扩增,输出最终得到的图神经网络架构。本发明可实现大规模图上高效的架构搜索。

    基于管道模型与任务合并的大数据质量管理任务调度方法

    公开(公告)号:CN111459646B

    公开(公告)日:2023-03-21

    申请号:CN202010387106.7

    申请日:2020-05-09

    Applicant: 南京大学

    Inventor: 顾荣 齐扬 黄宜华

    Abstract: 本发明公开了一种基于管道模型与任务合并的大数据质量管理任务调度方法,包括以下步骤:第一步,从各类底层异构大数据源中读取脏数据;第二步,定义一系列数据质量检测与修复任务,发送给任务调度器;第三步,任务调度器对收到的数据质量管理任务进行分类;第四步,对可合并的分类后任务进行合并处理;第五步,通过并行化数据处理函数依次执行各类任务;第六步,统一输出并反馈数据质量检测与修复任务的执行结果。本发明可解决现有数据质量管理系统在大数据场景下性能不足的问题,提高数据质量管理任务执行效率,同时兼顾数据质量的检测与修复问题。

    一种面向深度学习的作业资源自动弹性伸缩方法

    公开(公告)号:CN114816757A

    公开(公告)日:2022-07-29

    申请号:CN202210477181.1

    申请日:2022-05-03

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向深度学习的作业资源自动弹性伸缩方法,包括如下步骤:用户通过系统接口提交深度学习作业和作业描述文件;根据同类型作业的历史执行数据,建立作业资源预测模型;使用该模型预测作业的初始资源量,启动相应数量的实例;对每一个作业实例,基于主机资源负载、集群拓扑、用户偏好以及GPU设备的分布进行调度;每一轮深度学习训练迭代完成后,判断作业能否按预期时间完成;根据作业当前执行速度,计算作业资源弹性伸缩系数;进行作业实例数的自动调整。本发明可解决现有弹性伸缩方法在深度学习场景下资源利用率低、GPU设备分配依赖人工的问题。

    一种基于自对比学习的嵌套关系抽取方法

    公开(公告)号:CN114722156A

    公开(公告)日:2022-07-08

    申请号:CN202210477175.6

    申请日:2022-05-03

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于自对比学习的嵌套关系抽取方法,首先基于预训练语言模型对输入句子进行编码。然后,利用实体级别的注意力机制获取每个实体对应序列片段的语义表示。接着,生成各层的嵌套关系候选三元组。在此基础上,引入嵌套关系三元组的类型特征以及三元组中左右的位置特征与类型特征,并且使用Transformer迭代地进行关系三元组表示与分类后实现嵌套关系抽取。最后,结合基于嵌套关系相似度的自对比学习,进行联合训练。本发明增强模型对输入句子中嵌套关系的整体编码表示能力,从而提升模型对嵌套关系抽取的准确性。

    一种基于机器学习模型样本生成的在线近似查询方法

    公开(公告)号:CN114722088A

    公开(公告)日:2022-07-08

    申请号:CN202210477174.1

    申请日:2022-05-03

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于机器学习模型样本生成的在线近似查询方法。首先,对数据表中的元组进行标注,赋予标签。然后,将元组以及标签编码为向量形式。在此基础上,使用数据表元组向量训练机器学习模型,从而学习数据底层分布信息,因此可以生成数据表样本元组。接着,解析查询语句以获取查询关键信息,并根据样本分配算法计算各类样本元组的需要生成数量。最后,根据样本分配结果,利用训练完毕的机器学习模型生成相应数量的样本元组以组成样本表,并基于样本表估计近似查询结果。本发明可以减少近似查询中数据读取开销,在保证近似查询结果精度的前提下提高近似查询效率,解决现有近似查询方法采样效率低、结果误差大的问题。

    一种基于推送模型的分布式计算集群本地性调度方法

    公开(公告)号:CN108509280B

    公开(公告)日:2022-05-31

    申请号:CN201810367756.8

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于推送模型的分布式计算集群本地性调度方法,包括以下步骤:第一步,各应用管理器为每个计算任务生成一个资源请求,发送给集群调度器;第二步,集群调度器对收到的资源请求进行分类;第三步,对分类好的资源请求进行剪枝处理;第四步,节点管理器通过心跳来触发调度;第五步,对于等待时间超过了最大延迟时间的资源请求,缓存到待推送的资源请求队列中;第六步,将待推送的资源请求主动推送到其数据所在的节点进行调度;第七步,降低推送失败的资源请求所要求的数据本地性。本发明可解决现有集群调度器在内存计算场景下本地性差的问题,提高数据本地性,同时解决长尾效应问题。

    一种机器学习流水线自动化设计的方法

    公开(公告)号:CN111459988A

    公开(公告)日:2020-07-28

    申请号:CN202010446642.X

    申请日:2020-05-25

    Applicant: 南京大学

    Abstract: 本发明公开了一种机器学习流水线自动化设计方法,将机器学习流水线的构建过程分为两部分:结构搜索和超参调优,将结构搜索过程建模为强化学习问题,使用强化学习算法学习搜索策略;在确定了机器学习流水线的超参数后,再使用贝叶斯优化对其进行超参配置,强化学习过程和超参调优过程是交替进行的,并在此基础上实现了两种并行化方法。本发明相比于以前方法,可处理特征类型多样,提升了流水线的性能,并且扩展性更强。

Patent Agency Ranking