基于Spark架构的数据均衡分区方法及计算机存储介质

    公开(公告)号:CN110069502A

    公开(公告)日:2019-07-30

    申请号:CN201910333549.5

    申请日:2019-04-24

    Applicant: 东南大学

    Inventor: 宋爱波 杜名洋

    Abstract: 本发明公开了一种基于Spark架构的数据均衡分区方法及计算机存储介质,本方法首先获取应用程序执行过程中的Shuffle中间数据对应的键值分布信息,然后分析Shuffle中间数据分区特性,构建Shuffle中间数据均衡分区模型,最后利用所述的键值分布信息和Spark数据均衡分区算法对均衡分区模型求解,得到Shuffle中间数据分区策略。本发明能够有效避免Shuffle中间数据的倾斜分区,从而进一步提高任务的执行速度,提高Spark的执行性能。

    基于SparkStreaming的电力系统日志数据实时处理方法

    公开(公告)号:CN107704594A

    公开(公告)日:2018-02-16

    申请号:CN201710951969.0

    申请日:2017-10-13

    Applicant: 东南大学

    Inventor: 宋爱波 涂金林

    CPC classification number: G06F16/244 G06F16/2453 G06F16/24532 G06F16/24568

    Abstract: 本发明公开了一种基于Spark Streaming的电力系统日志数据实时处理方法,首先针对全网日志数据流急剧增长,处理系统获取的日志数据的类别以及相关属性变化多样的问题,预定义统计模型,降低处理系统预处理的时间;然后通过对块间隔和处理时间关系的分析,发现基于块间隔的动态调整,能够使查询任务的处理时间达到最优;最后基于该方法设计了高效的动态调整策略,及时探寻到最优的块间隔,减少查询任务的处理时间,借此分析电力调度自动化系统的运行状态和轨迹,实现电力系统健康状况定性到定量的分析转换。本发明从而为电力系统日志数据的有效管理提供了一种高效、易用的实时处理方法。

    一种集群环境下请求会话保持与调度的方法

    公开(公告)号:CN102685237A

    公开(公告)日:2012-09-19

    申请号:CN201210151219.2

    申请日:2012-05-16

    Applicant: 东南大学

    Abstract: 发明公开了一种集群环境下请求会话保持与调度的方法,主要包含调度与数据备份同步的系统架构、服务请求的会话保持及调度策略、运行时会话数据的存储算法、目标服务器宕机及调度服务器宕机的切换策略。基于服务器真实负载进行任务调度并融合SESSION数据同步的系统架构引入调度与映射服务、监控服务、SESSION存储与备份服务等多个处理服务,实现实时监控目标服务器CPU、I/O、NETWORK、DISK的负载状态从而在首次调度时选出负载最低的服务器来处理请求,后继的同一SESSION请求会被保持到同一目标服务器,SESSION数据会在另外的服务器上备份而非在集群中广播。

    一种基于深度学习算法的牙模配准分割系统

    公开(公告)号:CN118071761A

    公开(公告)日:2024-05-24

    申请号:CN202410275827.7

    申请日:2024-03-12

    Inventor: 郑高峰 宋爱波

    Abstract: 本发明公开了一种基于深度学习算法的牙模配准分割系统,具体涉及牙模配准分割技术领域,本发明构建了深度学习模型,通过深度学习模型,系统可以自动学习和识别牙模的形状和结构,大大提高了切割和定位的精度,由于深度学习模型具有强大的学习和识别能力,所以本发明可以适应各种不同的牙模形状和大小,具有很强的适应性,设置了牙模分割模块和牙模配准模块对牙模的分割、配准过程进行把控,有利于提高分割精度和配准精度,基于记录的实际应用相关数据计算实际应用质量指数,并对计算结果进行评估,判断其是否满足实际应用需求,有利于实现系统处理速度的优化,提高系统的实际应用质量。

    一种基于深度学习的自适应电网故障诊断方法

    公开(公告)号:CN109932617A

    公开(公告)日:2019-06-25

    申请号:CN201910287943.X

    申请日:2019-04-11

    Applicant: 东南大学

    Inventor: 宋爱波 李峰

    Abstract: 本发明公开了一种基于深度学习的自适应电网故障诊断方法,首先,根据电网结构图设计新颖的电网结构知识表示;其次,设计T步迭代算法自适应地融合有效信息,并构造设备高级特征,从而实现设备的特征提取;最后,使用全连接神经网络融合设备高级特征,构造全网高级特征,综合全网高级特征和设备高级特征作为输入,实现电网的多故障诊断,从而有效提高模型的可移植性与多故障诊断性能。本发明可实现复杂电网故障诊断功能,并显著提升电网故障诊断方法的可移植性和多故障诊断的性能。

    一种优化Spark SQL执行工作流的方法

    公开(公告)号:CN108763489A

    公开(公告)日:2018-11-06

    申请号:CN201810536078.3

    申请日:2018-05-28

    Applicant: 东南大学

    Inventor: 宋爱波 万雨桐

    Abstract: 本发明公开了一种优化Spark SQL执行工作流的方法。该方法包括步骤S1:构建Spark任务执行的代价模型,分为读取输入数据的代价,对中间数据进行排序的代价和写输出数据的代价,将三者进行求和得到任务执行的总代价;步骤S2:提出基于代价的相关性合并算法,该算法的思想是对于两个具有输入数据相关性的任务,计算它们分别执行的代价之和与合并成一个任务之后执行的代价,通过比较两者的大小来决定是否将它们进行合并。本发明通过基于代价的相关性合并算法解决Spark SQL查询中对相同的输入数据进行重复读取的问题。

    一种OLAP海量多维数据维存储方法

    公开(公告)号:CN102982103A

    公开(公告)日:2013-03-20

    申请号:CN201210438298.5

    申请日:2012-11-06

    Applicant: 东南大学

    Abstract: 本发明公开了一种OLAP海量多维数据维存储方法,首先,按维分割OLAP多维数据,构建维层次编码,设计HDFile维存储文件结构,使得聚集计算只需访问相关维对应数据,避免了检索无关数据;接着构建基于维层次编码的B+树索引,快速定位维存储数据,节省了I/O开销;最后设计高效并行查询算法,进一步提高了OLAP查询效率。从而为科学实验统计、环境气象、生物信息计算等海量数据分析的应用提供一套高效、易用、可扩展的存储方法。

    一种医保反欺诈智能管理系统及其管理方法

    公开(公告)号:CN119963343A

    公开(公告)日:2025-05-09

    申请号:CN202510075719.X

    申请日:2025-01-17

    Abstract: 本发明公开了一种医保反欺诈智能管理系统及其管理方法,涉及反诈监督管理技术领域,包括如下模块:欺诈案例分析模块,获取欺诈案例建立案例数据库,分别通过每个欺诈历史案例获取信息值,分别通过每个欺诈历史案例获取方式值,分别通过每个欺诈案例的信息值与方式值得到每个欺诈历史案例的欺诈系数;通过医保报销人员的欺诈系数与历史系数得到筛选参考范围,再根据医保报销人员的筛选参考范围与欺诈系数参考范围得到相似重合度,从而便于将医保报销人员的真实情况与案例数据库中的欺诈案例进行相似度比较,进而有益于提高医保欺诈行为的预警效果,也有益于避免团伙作案采用类似手法骗取医保费用。

    基于机器学习的数据索引优化方法

    公开(公告)号:CN114328519B

    公开(公告)日:2024-07-12

    申请号:CN202111593769.5

    申请日:2021-12-23

    Applicant: 东南大学

    Abstract: 本发明提供了一种基于机器学习的数据索引优化方法,包括对主键索引进行优化以及对二级索引进行优化。前者在模型分层结构的设计下,通过自顶向下拟合预测残差来充分利用非叶子模型的拟合效果、权重更新来提高对离群数据的关注度和预设阈值进行数据剪枝这三个方面提高多维主键数据的预测准确度。后者在第一阶段使用二分类模型和Bloom Filter进行两步筛选,将数据集划分成唯一键值和非唯一键值,并保有一定的误判率。在第二阶段根据两类数据的特点,分别构建索引模型进行处理,从而满足二级索引的查询要求。本发明能够适应多种索引类型,提升索引的查询效率,降低索引的空间开销。

Patent Agency Ranking