-
公开(公告)号:CN118503229B
公开(公告)日:2024-09-27
申请号:CN202410961286.3
申请日:2024-07-18
IPC分类号: G06F16/21 , G06F16/22 , G06F16/2455 , G06F16/27
摘要: 本发明涉及一种面向多源异构数据的Hudi数据摄取方法及系统,属于数据处理技术领域,包括:发布数据入湖任务:上传入湖任务的相关信息,发布入湖任务;执行数据入湖任务:采用Apache Hudi作为数据湖架构,通过数据入湖处理引擎将原始数据从数据源传输到数据湖中进行存储,同时采集原始数据的元数据信息,并将原始数据的元数据信息持久化存储到元数据库中;构建数据资源目录:根据采集的元数据以及元数据在数据湖中的相关信息构建数据湖的数据资源目录。本发明通过网关架构对所有数据流进行集中管理,简化来自不同源的数据集成过程,降低系统的复杂性和总体拥有成本。
-
公开(公告)号:CN118519766A
公开(公告)日:2024-08-20
申请号:CN202410597016.9
申请日:2024-05-14
IPC分类号: G06F9/50
摘要: 本公开提出一种面向国产异构算力集群的作业调度方法及系统,方法包括:在一个调度周期中,根据待调度作业的资源量、算力类型请求,及节点的算力类型标签,从异构算力集群中筛选出候选节点;考虑异构算力资源的性能差异,基于加权轮询计算候选节点权重,将权重最高的候选节点作为第一目标节点;根据异构算力集群及候选节点中各类资源占比对候选节点的资源使用空间进行评分,将评分最高的候选节点作为第二目标节点;随机选择最终目标节点,将待调度作业调度到最终目标节点。本公开通过在节点预选阶段添加初次筛选提升节点预选效率,在节点优选阶段,考虑异构算力资源性能差异和集群的整体性,克服了负载不均衡、异构算力不兼容的问题。
-
公开(公告)号:CN118211268A
公开(公告)日:2024-06-18
申请号:CN202410428512.1
申请日:2024-04-10
IPC分类号: G06F21/62 , G06V10/30 , G06V10/774 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/098
摘要: 本公开提供了基于扩散模型的异构联邦学习隐私保护方法及系统,涉及联邦学习隐私保护技术领域,包括建立服务器端与客户端的通信通道;获取客户端类别分布不均匀的数据上传至服务端,将所述类别分布不均匀的数据作为去噪扩散模型的输入,在服务器端生成符合数据分布的图像;利用生成的图像数据进行异构联邦学习的训练,服务器端初始化全局模型参数,并分发给随机选择的客户端,利用知识蒸馏方法,将全局模型看作教师网络,把上一轮的本地模型看作学生网络,进行本地模型的训练和参数上传,服务端利用各个客户端的上传的本地模型参数进行全局模型聚合,完成知识迁移。
-
公开(公告)号:CN117958831A
公开(公告)日:2024-05-03
申请号:CN202311479336.6
申请日:2023-11-08
IPC分类号: A61B5/318 , A61B5/346 , A61B5/00 , G06F18/241 , G06F18/2415 , G06F18/10 , G06F18/213 , G06N3/0442 , G06N3/0455 , G06N3/0895
摘要: 一种基于自监督学习的多导联心电分类方法,涉及心电信号分类技术领域,首先采用多种不同数据增强的方式对原始信号进行处理,设计合适的编码器模块和利用大量易获得的无标签数据提取心电特征,使编码器学习到更多关于心电信号类别的信息。最后利用少量标注数据微调模型编码器进行特征优化,通过训练模型,不断优化特征提取器的参数,使得生成的特征能够更好地反映输入数据的结构和信息。自监督学习的方式在一定程度上减少心电分类需要大量昂贵人工标注数据造成的阻碍,提高了模型的泛化能力。
-
公开(公告)号:CN117312989A
公开(公告)日:2023-12-29
申请号:CN202311380815.2
申请日:2023-10-24
IPC分类号: G06F18/2415 , G06F40/30 , G06N3/042 , G06N3/0464 , G06N3/0455
摘要: 本发明涉及一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统,包括:数据预处理:设置增量同步数据获取任务,进行数据采集和清洗,加载到Mysql环境当中;列语义识别:基于数据集的列关系属性及属性关系构建词汇关系图,作为双层GCN图卷积网络输入来获取GCN全局语义特征嵌入;通过RoBERTa预训练模型线性化编码,将初步列向量输入到三层Tansformer使用其多头列注意力机制来获取局部语义特征嵌入,将并联输出的嵌入向量通过注意力机制融合权值,得到全局‑局部交互的上下文语义信息,并使用Adaline进行分类预测;本发明构建了上下文列语义识别模型,基于关系列投影进行元数据的语义识别。
-
公开(公告)号:CN117112667A
公开(公告)日:2023-11-24
申请号:CN202311071030.7
申请日:2023-08-24
IPC分类号: G06F16/25 , G06F16/21 , G06F16/215
摘要: 本发明涉及一种基于湖仓一体的高校关系数据处理方法和系统,包括:将高校各业务系统原始数据抽取入湖仓及分割初始元数据入仓,并将有标签的元数据存入湖仓;构建初版高校数据标准映射字典,并将其数据标准中的中文简称同化成模型语义类别标签;对抽取入湖仓的未含有标注的元数据进行语义识别,基于模型语义类别标签对元数据标注进行纠错,并更新回填至湖仓的元数据标注中;基于数据仓库中的高校元数据标准映射字典,映射整合并构建分级分类的高校数据资产目录;实现数据资产目录发布及查询搜索。本发明构建了统一的高校元数据标准映射数据字典,实现业务系统与实现不同业务系统与高校统一元数据标准之间的关联映射,构建统一的数据资产目录。
-
公开(公告)号:CN116129143B
公开(公告)日:2023-09-08
申请号:CN202310100687.5
申请日:2023-02-08
申请人: 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
摘要: 一种基于串并联网络特征融合的边缘阔提取方法,属于医学影像边缘轮廓提取技术领域,科学有效的捕获了CTA影像轮廓细节信息,自动学习不同的特征权重,强化目标区域特征,又将不同分辨率的特征图转换为高分辨率特征图并融合,提高CTA影像轮廓清晰度,保证了信息的完整性。该网络结构并没有增加网络的横向深度,而是纵向扩展了网络,增加了模型的非线性,降低了相邻像素点的相关性,更有利于清晰边缘的提取。
-
公开(公告)号:CN116527274A
公开(公告)日:2023-08-01
申请号:CN202310534559.1
申请日:2023-05-10
IPC分类号: H04L9/32
摘要: 本发明涉及数字签名技术领域,公开了基于多标量乘快速计算的椭圆曲线验签方法及系统;其中方法包括:椭圆曲线数字签名步骤和椭圆曲线签名验签步骤;椭圆曲线数字签名步骤和椭圆曲线签名验签步骤中的多标量乘计算过程包括:获取椭圆曲线上基点P、点Q以及基点P的三倍点仿射坐标3P,对获取的数据进行预计算处理得到参数表;对标量系数K和标量系数L进行处理得到系数表;对参数表和系数表进行逐位计算,对逐位计算结果进行坐标还原处理得到多标量乘结果。通过对数字签名算法中遇到的多标量乘运算进行优化,大大降低了数字签名和数字验签过程的时间复杂度,提升数字签名的运算速度,提升系统的整体性能,提升用户体验。
-
公开(公告)号:CN118939736A
公开(公告)日:2024-11-12
申请号:CN202410944068.9
申请日:2024-07-15
IPC分类号: G06F16/28 , G06F16/215 , G06F16/2453 , G06F16/22 , G06F16/2455
摘要: 本发明涉及基于查询和元数据异常检测的数据湖仓聚簇方法与系统,属于大数据计算技术领域。包括:数据采集与预处理;EC‑GKDE算法异常判定:对预处理操作后的数据集进行训练,得到所有查询任务的异常分数,进行初次判定;元数据信息异常判定:获取异常查询任务的关联表,获取Hive元数据服务中HDFS实际路径信息,并计算该HDFS实际路径下小文件所占比例,二次判定该异常查询任务的关联表是否为异常表;聚簇优化:提交聚簇任务,将小文件合并为大文件。本发明减少存储资源的开销,大大降低了查询任务需要消耗的时间;本发明可以控制聚簇操作执行的次数,减轻聚簇机制带来的并发更新不支持、增量查询不友好和集群资源浪费的问题。
-
公开(公告)号:CN117958831B
公开(公告)日:2024-10-29
申请号:CN202311479336.6
申请日:2023-11-08
IPC分类号: A61B5/318 , A61B5/346 , A61B5/00 , G06F18/241 , G06F18/2415 , G06F18/10 , G06F18/213 , G06N3/0442 , G06N3/0455 , G06N3/0895
摘要: 一种基于自监督学习的多导联心电分类方法,涉及心电信号分类技术领域,首先采用多种不同数据增强的方式对原始信号进行处理,设计合适的编码器模块和利用大量易获得的无标签数据提取心电特征,使编码器学习到更多关于心电信号类别的信息。最后利用少量标注数据微调模型编码器进行特征优化,通过训练模型,不断优化特征提取器的参数,使得生成的特征能够更好地反映输入数据的结构和信息。自监督学习的方式在一定程度上减少心电分类需要大量昂贵人工标注数据造成的阻碍,提高了模型的泛化能力。
-
-
-
-
-
-
-
-
-