-
公开(公告)号:CN111767325B
公开(公告)日:2020-11-24
申请号:CN202010914905.5
申请日:2020-09-03
申请人: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC分类号: G06F16/2458 , G06F16/28 , G06K9/62
摘要: 本申请实施例提出基于深度学习的多源数据深度融合方法,包括获取待融合关系型数据表;构建深度学习模型,导入训练数据对待融合关系型数据表中的内容进行词向量化处理,对处理后的数据进行模式匹配;基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样,将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理,得到训练后的数据分桶模型,基于数据分桶模型进行基于实体的数据分桶处理;对每个桶中的数据进行是否指代同一实体的判断,将指代同一实体的数据进行数据融合,得到由融合后数据构成的数据表。采用词向量的方式对字符串数据建模,该方法可以同时对字符串的文本和语义进行建模,提高对脏数据的容忍度。
-
公开(公告)号:CN111767326A
公开(公告)日:2020-10-13
申请号:CN202010914927.1
申请日:2020-09-03
申请人: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC分类号: G06F16/2458 , G06F16/28 , G06F16/22 , G06K9/62
摘要: 本申请属于数据生成技术领域,具体涉及一种基于生成式对抗网络的关系型表格数据的生成方法及装置。其中的方法包括:获取包括可分类数据、数字型数据、顺序型数据的原始的关系型表格数据;选择能唯一确定实体的可分类数据以确定相应的实体,将唯一确定实体的可分类数据作为实体标识属性;将包含实体标识属性的可分类属性元组作为条件信息,将随机噪声向量作为输入,通过预先训练的数据生成模型得到生成的关系型表格数据。本申请中的方法能同时学习离散分布与连续分布,抓取记录之间的关联;同时抓取实体层面多条记录的潜在趋势,准确生成与原数据分布近似的假数据,且数据的分布在表格层面拟合真实数据集。
-
公开(公告)号:CN111767326B
公开(公告)日:2020-11-27
申请号:CN202010914927.1
申请日:2020-09-03
申请人: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC分类号: G06F16/2458 , G06F16/28 , G06F16/22 , G06K9/62
摘要: 本申请属于数据生成技术领域,具体涉及一种基于生成式对抗网络的关系型表格数据的生成方法及装置。其中的方法包括:获取包括可分类数据、数字型数据、顺序型数据的原始的关系型表格数据;选择能唯一确定实体的可分类数据以确定相应的实体,将唯一确定实体的可分类数据作为实体标识属性;将包含实体标识属性的可分类属性元组作为条件信息,将随机噪声向量作为输入,通过预先训练的数据生成模型得到生成的关系型表格数据。本申请中的方法能同时学习离散分布与连续分布,抓取记录之间的关联;同时抓取实体层面多条记录的潜在趋势,准确生成与原数据分布近似的假数据,且数据的分布在表格层面拟合真实数据集。
-
公开(公告)号:CN111767324B
公开(公告)日:2020-11-17
申请号:CN202010914904.0
申请日:2020-09-03
申请人: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC分类号: G06F16/2458 , G06K9/62
摘要: 本申请实施例提出了一种智能关联的自适应数据分析方法及装置,包括处理初始高维时间序列得到时序数据,构建每条时序数据相对于与其他时序数据的关联性向量,基于关联性向量构造时间序列关系图模型;对于每一条时序数据关联性向量进行动态异常监测,基于监测结果对关联性向量进行更新;根据关联性向量的更新结果判断是否需要更新关系图模型,如果需要则执行更新关系图模型的操作;基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求,给出查询结果。根据全局向量和局部向量残差来调整更新速度的策略能对短暂的时序数据异常有较强的抵抗能力,也能对时序数据潜在分布变化有较好的适应力,很好的满足了需求。
-
公开(公告)号:CN111813800A
公开(公告)日:2020-10-23
申请号:CN202010914395.1
申请日:2020-09-03
申请人: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC分类号: G06F16/242 , G06F16/2458 , G06F16/28
摘要: 本发明涉及一种基于深度强化学习的流式数据实时近似计算方法,方法包括:根据数据表格确定样本属性,样本属性为离散型属性或者数值型属性或者混合型属性;离散型属性的数据表格中所有数据项的取值范围均有限,且均以字符串形式保存;数值型属性的数据表格中所有数据项的取值范围均无限,且均以浮点型数字的形式保存;混合型属性的数据表格中一部分数据项的取值范围有限,且以字符串形式保存,另一部分数据项的取值范围无限,且以浮点型数字的形式保存;基于样本属性生成样本的数据表;根据生成的数据表构建全局统一的样本;当获取到查询请求后,根据查询请求确定选样方案;根据选样方案,对全局统一的样本进行近似查询估计,得到近似结果。
-
公开(公告)号:CN111768870A
公开(公告)日:2020-10-13
申请号:CN202010914926.7
申请日:2020-09-03
申请人: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC分类号: G16H50/70 , G06F16/215 , G06F16/26
摘要: 本发明公开了一种端到端数据可视化分析方法、装置和可读储存介质,解决了现有技术的不足,分析方法包括以下步骤:步骤1,数据准备层采集多源异构数据,并将多源异构数据进行融合,融合后的多源异构数据构成用于数据分析的数据集;步骤2,数据分析层包括若干个数据分析模型,数据分析层选取数据分析模型对数据集进行分析,并将分析结果发送至用户交互层;步骤3,用户交互层收集数据分析层的分析结果,并将分析结果进行可视化展示。
-
公开(公告)号:CN111767324A
公开(公告)日:2020-10-13
申请号:CN202010914904.0
申请日:2020-09-03
申请人: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC分类号: G06F16/2458 , G06K9/62
摘要: 本申请实施例提出了一种智能关联的自适应数据分析方法及装置,包括处理初始高维时间序列得到时序数据,构建每条时序数据相对于与其他时序数据的关联性向量,基于关联性向量构造时间序列关系图模型;对于每一条时序数据关联性向量进行动态异常监测,基于监测结果对关联性向量进行更新;根据关联性向量的更新结果判断是否需要更新关系图模型,如果需要则执行更新关系图模型的操作;基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求,给出查询结果。根据全局向量和局部向量残差来调整更新速度的策略能对短暂的时序数据异常有较强的抵抗能力,也能对时序数据潜在分布变化有较好的适应力,很好的满足了需求。
-
公开(公告)号:CN111813800B
公开(公告)日:2020-12-04
申请号:CN202010914395.1
申请日:2020-09-03
申请人: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC分类号: G06F16/242 , G06F16/2458 , G06F16/28
摘要: 本发明涉及一种基于深度强化学习的流式数据实时近似计算方法,方法包括:根据数据表格确定样本属性,样本属性为离散型属性或者数值型属性或者混合型属性;离散型属性的数据表格中所有数据项的取值范围均有限,且均以字符串形式保存;数值型属性的数据表格中所有数据项的取值范围均无限,且均以浮点型数字的形式保存;混合型属性的数据表格中一部分数据项的取值范围有限,且以字符串形式保存,另一部分数据项的取值范围无限,且以浮点型数字的形式保存;基于样本属性生成样本的数据表;根据生成的数据表构建全局统一的样本;当获取到查询请求后,根据查询请求确定选样方案;根据选样方案,对全局统一的样本进行近似查询估计,得到近似结果。
-
公开(公告)号:CN111767325A
公开(公告)日:2020-10-13
申请号:CN202010914905.5
申请日:2020-09-03
申请人: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC分类号: G06F16/2458 , G06F16/28 , G06K9/62
摘要: 本申请实施例提出基于深度学习的多源数据深度融合方法,包括获取待融合关系型数据表;构建深度学习模型,导入训练数据对待融合关系型数据表中的内容进行词向量化处理,对处理后的数据进行模式匹配;基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样,将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理,得到训练后的数据分桶模型,基于数据分桶模型进行基于实体的数据分桶处理;对每个桶中的数据进行是否指代同一实体的判断,将指代同一实体的数据进行数据融合,得到由融合后数据构成的数据表。采用词向量的方式对字符串数据建模,该方法可以同时对字符串的文本和语义进行建模,提高对脏数据的容忍度。
-
公开(公告)号:CN111723160B
公开(公告)日:2021-03-23
申请号:CN202010857876.3
申请日:2020-08-24
申请人: 国网浙江省电力有限公司 , 国网浙江省电力有限公司营销服务中心
摘要: 本发明涉及一种多源异构增量数据同步方法及系统,方法包括:获取至少一个源端的增量流式数据;将获取的每一个源端的增量流式数据同步在分布式消息队列Kafka中以缓存;对所述分布式消息队列Kafka中的各增量流式数据按照存储策略进行逻辑处理,将处理后的增量流式数据存储到目标数据源中,其中,存储策略为预先在数据传输服务单元中配置的用于对增量流式数据进行存储的信息。上述方法可实现将关系库中的增量流式数据实时同步到分布式存储中,并实现了高扩展性和高可靠性、持久性。
-
-
-
-
-
-
-
-
-