一种优化Spark SQL执行工作流的方法

    公开(公告)号:CN108763489B

    公开(公告)日:2022-02-15

    申请号:CN201810536078.3

    申请日:2018-05-28

    Applicant: 东南大学

    Inventor: 宋爱波 万雨桐

    Abstract: 本发明公开了一种优化Spark SQL执行工作流的方法。该方法包括步骤S1:构建Spark任务执行的代价模型,分为读取输入数据的代价,对中间数据进行排序的代价和写输出数据的代价,将三者进行求和得到任务执行的总代价;步骤S2:提出基于代价的相关性合并算法,该算法的思想是对于两个具有输入数据相关性的任务,计算它们分别执行的代价之和与合并成一个任务之后执行的代价,通过比较两者的大小来决定是否将它们进行合并。本发明通过基于代价的相关性合并算法解决Spark SQL查询中对相同的输入数据进行重复读取的问题。

    一种提高在线聚集中多表连接查询效率的方法

    公开(公告)号:CN109062949B

    公开(公告)日:2021-10-01

    申请号:CN201810649787.2

    申请日:2018-06-21

    Applicant: 东南大学

    Inventor: 宋爱波 贡欢

    Abstract: 本发明公开了一种提高在线聚集中多表连接查询效率的方法。本发明包含步骤S1:构建索引模块,通过混合整数线性规划模型从历史记录的多表查询中选择合适的连接属性,对选择的连接属性建立索引;步骤S2:根据步骤1中创建的索引,设计多表连接查询算法Index Ripple Join;步骤S3:使用中心极限定理对采集的样本进行区间估计,从而得到多表连接查询置信区间。本发明能够有效提高在线聚集中多表连接查询的效率。

    一种集群环境下请求会话保持与调度的方法

    公开(公告)号:CN102685237B

    公开(公告)日:2015-05-06

    申请号:CN201210151219.2

    申请日:2012-05-16

    Applicant: 东南大学

    Abstract: 发明公开了一种集群环境下请求会话保持与调度的方法,主要包含调度与数据备份同步的系统架构、服务请求的会话保持及调度策略、运行时会话数据的存储算法、目标服务器宕机及调度服务器宕机的切换策略。基于服务器真实负载进行任务调度并融合SESSION数据同步的系统架构引入调度与映射服务、监控服务、SESSION存储与备份服务等多个处理服务,实现实时监控目标服务器CPU、I/O、NETWORK、DISK的负载状态从而在首次调度时选出负载最低的服务器来处理请求,后继的同一SESSION请求会被保持到同一目标服务器,SESSION数据会在另外的服务器上备份而非在集群中广播。

    一种基于Hadoop的OLAP数据存储与查询方法

    公开(公告)号:CN103366015A

    公开(公告)日:2013-10-23

    申请号:CN201310330472.9

    申请日:2013-07-31

    Abstract: 本发明公开了一种基于Hadoop的OLAP海量数据的存储与查询方法,在数据存储上,首先定义了新的列文件存储格式HCFile,然后给出了基于HCFile的数据表存储方法,在该方案中,读取一列数据只需读取若干HCFile,无需访问其它列数据,I/O效率与按行存储相比大大提高;同时,添加一列数据只需添加新的文件,极易扩展。在聚集计算上,首先创建了基于倒排结构的数据索引,然后利用MapReduce实现了OLAP的基本聚集计算,包括求和、最大/最小值和计数等,其它聚集计算可由这些基本聚集计算实现,得益于高效的数据索引,聚集计算的性能显著提升。本发明与现有技术相比,不仅有效的提高了数据存储与查询的效率,而且节省了硬件资源,降低了时间和硬件成本,同时,运用更方便灵活。

    一种基于图神经网络的监测系统
    26.
    发明公开

    公开(公告)号:CN119964796A

    公开(公告)日:2025-05-09

    申请号:CN202510033023.0

    申请日:2025-01-09

    Abstract: 本发明公开了一种基于图神经网络的监测系统,涉及监督管理技术领域,包括如下模块:数据处理模块,获取参与者的信息值,获取参与者的就诊值,通过参与者的信息值与就诊值得到历史系数;通过历史系数与历史系数预设阈值的比较结果得到预测名单,从而根据参与者的历史系数预测参与者是否有可能成为异常人员,而便于后续根据参与者的历史系数预测参与者是否可能成为异常人员,进而有益于提高健康保障中异常行为的预见性和预警机制,通过建立可疑人员数据库,从而便于集中存储预测名单,进而便于根据预测名单对参与者进行健康保障核实,进而有益于避免健康保障的异常行为造成的经济损失。

    一种基于深度学习算法的牙模配准分割系统

    公开(公告)号:CN118071761B

    公开(公告)日:2024-12-20

    申请号:CN202410275827.7

    申请日:2024-03-12

    Inventor: 郑高峰 宋爱波

    Abstract: 本发明公开了一种基于深度学习算法的牙模配准分割系统,具体涉及牙模配准分割技术领域,本发明构建了深度学习模型,通过深度学习模型,系统可以自动学习和识别牙模的形状和结构,大大提高了切割和定位的精度,由于深度学习模型具有强大的学习和识别能力,所以本发明可以适应各种不同的牙模形状和大小,具有很强的适应性,设置了牙模分割模块和牙模配准模块对牙模的分割、配准过程进行把控,有利于提高分割精度和配准精度,基于记录的实际应用相关数据计算实际应用质量指数,并对计算结果进行评估,判断其是否满足实际应用需求,有利于实现系统处理速度的优化,提高系统的实际应用质量。

    基于ELETRIC-BERT的实体抽取方法

    公开(公告)号:CN113962214B

    公开(公告)日:2024-07-16

    申请号:CN202111239034.2

    申请日:2021-10-25

    Applicant: 东南大学

    Abstract: 本发明提供了一种基于ELETRIC‑BERT的实体抽取方法,包括:通过预训练得到领域预训练模型ELETRIC‑BERT;将领域预训练模型ELETRIC‑BERT与实体抽取基本模型进行整合,得到基于ELETRIC‑BERT的实体抽取模型;使用模块替换策略,将原模型参数量压缩为原来的一半;使用压缩后的模型,进行实体抽取任务,从文本语料中抽取出领域实体。与现有实体抽取技术相比,本发明可以在实现高准确抽取率的同时,大幅度减少模型对标注语料的依赖。

    基于SparkStreaming的电力系统日志数据实时处理方法

    公开(公告)号:CN107704594B

    公开(公告)日:2021-02-09

    申请号:CN201710951969.0

    申请日:2017-10-13

    Applicant: 东南大学

    Inventor: 宋爱波 涂金林

    Abstract: 本发明公开了一种基于Spark Streaming的电力系统日志数据实时处理方法,首先针对全网日志数据流急剧增长,处理系统获取的日志数据的类别以及相关属性变化多样的问题,预定义统计模型,降低处理系统预处理的时间;然后通过对块间隔和处理时间关系的分析,发现基于块间隔的动态调整,能够使查询任务的处理时间达到最优;最后基于该方法设计了高效的动态调整策略,及时探寻到最优的块间隔,减少查询任务的处理时间,借此分析电力调度自动化系统的运行状态和轨迹,实现电力系统健康状况定性到定量的分析转换。本发明从而为电力系统日志数据的有效管理提供了一种高效、易用的实时处理方法。

    一种基于Hadoop的OLAP数据存储与查询方法

    公开(公告)号:CN103366015B

    公开(公告)日:2016-04-27

    申请号:CN201310330472.9

    申请日:2013-07-31

    Abstract: 本发明公开了一种基于Hadoop的OLAP海量数据的存储与查询方法,在数据存储上,首先定义了新的列文件存储格式HCFile,然后给出了基于HCFile的数据表存储方法,在该方案中,读取一列数据只需读取若干HCFile,无需访问其它列数据,I/O效率与按行存储相比大大提高;同时,添加一列数据只需添加新的文件,极易扩展。在聚集计算上,首先创建了基于倒排结构的数据索引,然后利用MapReduce实现了OLAP的基本聚集计算,包括求和、最大/最小值和计数等,其它聚集计算可由这些基本聚集计算实现,得益于高效的数据索引,聚集计算的性能显著提升。本发明与现有技术相比,不仅有效的提高了数据存储与查询的效率,而且节省了硬件资源,降低了时间和硬件成本,同时,运用更方便灵活。

Patent Agency Ranking