-
公开(公告)号:CN115277858A
公开(公告)日:2022-11-01
申请号:CN202211166164.2
申请日:2022-09-23
申请人: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC分类号: H04L67/60 , H04L67/561 , H04L67/563 , H04L47/50 , G06F16/13 , G06F16/172 , G06F16/182
摘要: 本发明涉及信息处理领域,公开了一种大数据的数据处理方法和系统,所述方法包括设置名称节点,数据节点和用户端,其中,所述名称节点被配置为中心管理服务器,将描述性元数据以列表形式存储在名称节点的内存中,响应于用户端对文件的访问请求,提供内部元数据服务;在所述名称节点处,设置有静态缓存队列,所述静态缓存队列,存储对应热点文件的分块访问数据,以及在数据节点设置重定向消息,将数据的访问和地址变更能够及时反馈到用户端,实现了用户对数据节点信息的访问的快捷性。
-
公开(公告)号:CN116150405A
公开(公告)日:2023-05-23
申请号:CN202310416643.3
申请日:2023-04-19
申请人: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC分类号: G06F16/36 , G06F40/30 , G06F18/25 , G06F18/22 , G06N3/0464 , G06N3/045 , G06N3/09 , G06N3/084
摘要: 本发明提供一种多场景的异构数据处理方法,包括:从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中提取图结构信息,获取文本实体的结构拓扑特征;从第一知识图谱和第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;融合第一知识图谱和第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;基于第一知识图谱中任一文本实体的第一实体表示与第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;基于第一实体对齐概率矩阵,确定第一知识图谱和第二知识图谱的对齐实体对。本发明提升了异构数据融合的准确性。
-
公开(公告)号:CN114969018B
公开(公告)日:2022-11-08
申请号:CN202210913441.5
申请日:2022-08-01
申请人: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC分类号: G06F16/215 , G06F16/901 , G06F16/906 , G06N5/02
摘要: 本发明实施例提供一种数据监控方法及系统,其中方法包括:确定待监控的当前数据治理平台的融合数据;将所述待监控的当前数据治理平台的融合数据输入至数据监控模型中,得到所述数据监控模型输出的数据监控结果;其中,所述数据监控模型是基于对当前数据治理平台的样本融合数据进行分类分级后生成知识图谱和质量知识库后得到的。本发明有效解决了目前数据治理平台存在的数据分类分级及质量管控工作中数据难以治理的问题。
-
公开(公告)号:CN116150405B
公开(公告)日:2023-06-27
申请号:CN202310416643.3
申请日:2023-04-19
申请人: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC分类号: G06F16/36 , G06F40/30 , G06F18/25 , G06F18/22 , G06N3/0464 , G06N3/045 , G06N3/09 , G06N3/084
摘要: 本发明提供一种多场景的异构数据处理方法,包括:从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中提取图结构信息,获取文本实体的结构拓扑特征;从第一知识图谱和第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;融合第一知识图谱和第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;基于第一知识图谱中任一文本实体的第一实体表示与第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;基于第一实体对齐概率矩阵,确定第一知识图谱和第二知识图谱的对齐实体对。本发明提升了异构数据融合的准确性。
-
公开(公告)号:CN115277858B
公开(公告)日:2022-12-20
申请号:CN202211166164.2
申请日:2022-09-23
申请人: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC分类号: H04L67/60 , H04L67/561 , H04L67/563 , H04L47/50 , G06F16/13 , G06F16/172 , G06F16/182
摘要: 本发明涉及信息处理领域,公开了一种大数据的数据处理方法和系统,所述方法包括设置名称节点,数据节点和用户端,其中,所述名称节点被配置为中心管理服务器,将描述性元数据以列表形式存储在名称节点的内存中,响应于用户端对文件的访问请求,提供内部元数据服务;在所述名称节点处,设置有静态缓存队列,所述静态缓存队列,存储对应热点文件的分块访问数据,以及在数据节点设置重定向消息,将数据的访问和地址变更能够及时反馈到用户端,实现了用户对数据节点信息的访问的快捷性。
-
公开(公告)号:CN114969018A
公开(公告)日:2022-08-30
申请号:CN202210913441.5
申请日:2022-08-01
申请人: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC分类号: G06F16/215 , G06F16/901 , G06F16/906 , G06N5/02
摘要: 本发明实施例提供一种数据监控方法及系统,其中方法包括:确定待监控的当前数据治理平台的融合数据;将所述待监控的当前数据治理平台的融合数据输入至数据监控模型中,得到所述数据监控模型输出的数据监控结果;其中,所述数据监控模型是基于对当前数据治理平台的样本融合数据进行分类分级后生成知识图谱和质量知识库后得到的。本发明有效解决了目前数据治理平台存在的数据分类分级及质量管控工作中数据难以治理的问题。
-
公开(公告)号:CN117272123B
公开(公告)日:2024-02-27
申请号:CN202311560860.6
申请日:2023-11-22
申请人: 中电科大数据研究院有限公司
IPC分类号: G06F18/24 , G06N3/0455 , G06F18/23 , G06F18/22
摘要: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。
-
公开(公告)号:CN117236409B
公开(公告)日:2024-02-27
申请号:CN202311529303.8
申请日:2023-11-16
申请人: 中电科大数据研究院有限公司
IPC分类号: G06N3/084 , G06N3/045 , G06N3/0442 , G06N3/047 , G06N3/048 , G06N3/0475 , G06N3/096 , G06F40/289 , G06F16/35 , G06F18/2415 , G06N3/092
摘要: 本申请实施例公开了基于大模型的小模型训练方法、装置、系统和存储介质,用于在计算资源与存储空间有限的情况下,在具体的应用场景中提高大模型的应用潜力。本申请实施例小模型训练方法包括:采集目标应用场景的初始样本数据;初始化大模型;将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;使用大模型将标记序列转换为概率分布软标签;将概率分布软标签和对应的输入文本数据进行组合,生成数据集;根据概率分布软标签的维度创建一个循环神经网络模型和损失函数;使用数据集、小模型和损失函数进行训练,生(56)对比文件US 11450225 B1,2022.09.20US 2020387782 A1,2020.12.10US 2022237890 A1,2022.07.28孙璐等.基于自然语言理解的软件产业政策关联性分析技术.电子技术应用.2021,第47卷(第12期),第57-63页.刘文瑶.基于迁移学习的交通标志识别研究.中国优秀硕士学位论文全文数据库 工程科技II辑.2022,(第2期),第C035-171页.Weijiang Fan等.A Framework for MathWord Problem Solving Based on Pre-training Models and Spatial OptimizationStrategies.Computer Supported CooperativeWork and Social Computing.2023,第488-498页.Colin Cherry等.Natural LanguageGeneration for Effective KnowledgeDistillation.Proceedings of the 2ndWorkshop on Deep Learning Approaches forLow-Resource NLP.2019,第202-208页.Chengqiang Lu等.KnowledgeDistillation of Transformer-basedLanguage Models Revisited.arXiv.2022,第1-43页.舒真瀚等.基于知识蒸馏的中文自动语音识别的建模方法.现代计算机.2020,(第8期),第18-22页.
-
公开(公告)号:CN117272123A
公开(公告)日:2023-12-22
申请号:CN202311560860.6
申请日:2023-11-22
申请人: 中电科大数据研究院有限公司
IPC分类号: G06F18/24 , G06N3/0455 , G06F18/23 , G06F18/22
摘要: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。
-
公开(公告)号:CN117115756A
公开(公告)日:2023-11-24
申请号:CN202311379545.3
申请日:2023-10-24
申请人: 中电科大数据研究院有限公司
IPC分类号: G06V20/52 , G06V40/10 , G06V40/16 , G06V10/22 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
摘要: 本发明公开了一种人员睡觉行为检测方法及系统该方法包括:获取待检测人员的视频帧;利用事物检测模型对所述视频帧进行检测,并利用目标关联决策模型对所述事物检测模型输出的检测结果进行决策,确定所述视频帧中是否有人体;在检测到有人体的情况下,利用事物检测模型确定对应所述人体的人体坐标信息,利用目标跟踪模型确定对应所述人体的唯一身份标识,并利用人脸识别模型确定对应所述人体的人脸坐标信息;根据连续多帧确定的人体坐标信息和人脸坐标信息,确定所述待检测人员的行为。利用本发明方案,可以准确识别工作人员的睡觉行为,提高人体睡觉行为的检测精度。
-
-
-
-
-
-
-
-
-