-
公开(公告)号:CN114038470A
公开(公告)日:2022-02-11
申请号:CN202111280080.7
申请日:2021-10-28
Applicant: 国家电网有限公司大数据中心
Abstract: 本发明实施例公开了一种变压器信号声纹特征提取方法、装置、设备及介质。该方法包括:获取所述变压器的运行状态声信号,将所述声信号重构得到重构声信号;选取所述重构声信号中的一帧作为基准帧;获取至少一个与所述基准帧相邻的相邻帧,得到至少一个所述相邻帧声信号的频率值;对至少一个所述相邻帧声信号的频率值进行处理,将处理后的至少一个频率值的平均值确定为所述基准帧的频率值;根据所述基准帧的频率值,计算所述基准帧的语音声纹特征参数。本发明实施例避免了由于帧内语音信号略微时移偏差而导致的频域信号的差异性,使得该方法相比于传统的直接根据声信号的频率值,提高了声纹特征提取的稳态性及声纹识别率。
-
公开(公告)号:CN113505594A
公开(公告)日:2021-10-15
申请号:CN202110837735.X
申请日:2021-07-23
Applicant: 国家电网有限公司大数据中心
IPC: G06F40/289 , G06F40/216 , G06N20/00
Abstract: 本发明公开了一种电力行业术语库建设方法及系统,该方法包括:根据电力业务的业务特征对电力业务进行分类,从而分类为多个业务主题域;根据电力行业的业务概念以及所述业务概念的定义,列举出每个所述业务主题域下的业务术语;根据所述业务术语以及所述业务术语对应的业务概念对电力行业的元数据存储库进行电力行业的关键词提取,并建立所述关键词与所述业务术语之间的对应关系;将所述关键词、所述关键词对应的所述业务术语、所述关键词对应的所述业务术语所属的业务主题域进行汇总从而形成电力行业业务词库。本发明能够形成体系化的电力行业业务术语库,可以提高电力行业数据管理的效率,可以提升电力行业数据分词的准确性。
-
公开(公告)号:CN114996408A
公开(公告)日:2022-09-02
申请号:CN202210754571.9
申请日:2022-06-29
Applicant: 国家电网有限公司大数据中心
IPC: G06F16/33 , G06F16/35 , G06F40/211 , G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08 , G06N5/02
Abstract: 本发明属于电力数据处理技术领域,尤其为一种基于Bert的面向非结构化电力数据的知识抽取方法及系统,该方法中,对触发词明显、句式和位置相对固定的知识,使用正则匹配方法抽取知识实体,对于非结构化电力数据中存在实体界限模糊和实体嵌套问题,通过基于Bert的知识抽取方法来抽取知识实体,然后再利用实体抽取的结果使用基于Bert的预训练语言模型进行关系和属性抽取,最终实现对非结构化电力数据的知识抽取,充分考虑了非结构化电力数据的句式和结构,适于非结构化电力数据的知识抽取,属于一种深度学习的知识抽取方法,而深度学习方法可以自动学习特征,采用低维、稠密的实值向量表示数据,避免了对人工和专家知识的严重依赖。
-
公开(公告)号:CN113918634A
公开(公告)日:2022-01-11
申请号:CN202111205394.0
申请日:2021-10-15
Applicant: 国家电网有限公司大数据中心
Abstract: 本发明公开了用于数据交互的数据适配方法、适配器及存储介质,属于信息处理的技术领域,该方法应用于数据虚拟化服务器中的数据虚拟化层和底层数据源之间,包括以下步骤:S1:建立多源异构数据采集适配器,其中,多源异构数据采集适配器包括多个子适配器,用于根据数据虚拟化服务器的请求,调用对应的子适配器来读取底层数据源中的数据;S2:建立统一的适配器接口,其中,通过所述统一的适配器接口能够根据调用的底层数据源类型访问底层数据源中的数据。本方法能够建立统一的接口和适配器模式,对标准统一的字节码进行识别,由底层的系统相关组件进行后续的工作,为上层数据消费者提供简洁、统一访问的访问入口。
-
公开(公告)号:CN113505590A
公开(公告)日:2021-10-15
申请号:CN202110839335.2
申请日:2021-07-23
Applicant: 国家电网有限公司大数据中心
IPC: G06F40/279 , G06F40/30
Abstract: 本发明公开了一种基于实体消歧的数据库中的关键数据元素识别方法及系统,其包括:结合DeepType模型、DeepMatch模型以及DeepCosine模型对数据库中的数据进行实体类型的预测以及实体的消歧,其中,所述数据库中包括多个数据表;基于Apriori算法以及FP‑growth算法对消歧后的数据库中的数据进行关联分析从而构建数据库表关联图;基于所述数据库表关联图识别出关键数据元素;基于候选实体类型、上下文的关联信息以及候选实体向量对所述关键数据元素进行解析和消歧。本发明的基于实体消歧的数据库中的关键数据元素识别方法及系统,其实现了全电网一张数据库视图,便于及时获取电网中的关键数据元素,可以提高电网行业数据管理效率。
-
公开(公告)号:CN114139497B
公开(公告)日:2024-08-23
申请号:CN202111519931.9
申请日:2021-12-13
Applicant: 国家电网有限公司大数据中心
IPC: G06F40/126 , G06F40/194 , G06F40/30 , G06N3/0475 , G06N3/08
Abstract: 本发明属于文本摘要提取技术领域,尤其为一种基于BERTSUM模型的文本摘要提取方法先对需要提取摘要的文本进行预处理,然后将预处理后的数据输入改进的BERT模型进行处理,判断出应该出现在摘要中的句子,BERT模型的改进过程中,在BERT模型原本的损失函数中增加一个余弦相似度损失,避免了数据处理中过度拟合,使得获得的摘要更加准确;另外,通过加入余弦相似性约束,使得BERT模型在训练早期,获得的结果的损失能够更快的下降,提高数据处理的速度;BERT模型的改进方面还包括加入融合指针网络的UniLM模型,通过融合指针网络的UniLM模型对文本下游生成任务进行微调,提前获取文本中的关键信息词,提高文本摘要的获得速度。
-
公开(公告)号:CN114969392A
公开(公告)日:2022-08-30
申请号:CN202210633230.6
申请日:2022-06-07
Applicant: 国家电网有限公司大数据中心
IPC: G06F16/383 , G06F16/36 , G06F40/30 , G06F40/279 , G06F40/216
Abstract: 本发明公开了一种多源异构数据标签生成方法及生成系统,属于信息处理的技术领域,该方法包括S1:记录和管理多源异构数据标签需求;S2:根据需求开展标签需求分析、梳理标签逻辑、开展标签数据溯源工作,制定数据标签规则;S3:按数据标签规则和数据标签逻辑开发及生成数据标签,其中,标签的生成包括手工生成和自动生成2种方式:手工生成是通过编写SQL或建模方式手动生成标签;自动生成是通过逻辑配置或者数据挖掘批量自动产生多个标签。本发明能够实现对业务知识的沉淀和共享,以支撑数据应用产品的快速构建、发布,提升企业数据应用建设与数据运营效率。
-
公开(公告)号:CN114443664A
公开(公告)日:2022-05-06
申请号:CN202210105132.5
申请日:2022-01-28
Applicant: 国家电网有限公司大数据中心
Abstract: 本发明公开了用于多源异构数据的虚拟表管理方法、装置及存储介质,属于信息处理的技术领域,该方法包括:S1:创建虚拟表,定义虚拟表结构;S2:建立虚拟表与底层数据之间的映射关系,将底层数据源的数据转换为虚拟表中的数据;S3:对数据消费者授权虚拟表访问权限;S4:数据消费者通过界面浏览和查询虚拟表中的数据。本发明可以实现多源异构数据的自动化查询,可有效、快速地查询底层数据中的数据,有利于数据的发现、理解。
-
公开(公告)号:CN114139497A
公开(公告)日:2022-03-04
申请号:CN202111519931.9
申请日:2021-12-13
Applicant: 国家电网有限公司大数据中心
IPC: G06F40/126 , G06F40/194 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明属于文本摘要提取技术领域,尤其为一种基于BERTSUM模型的文本摘要提取方法先对需要提取摘要的文本进行预处理,然后将预处理后的数据输入改进的BERT模型进行处理,判断出应该出现在摘要中的句子,BERT模型的改进过程中,在BERT模型原本的损失函数中增加一个余弦相似度损失,避免了数据处理中过度拟合,使得获得的摘要更加准确;另外,通过加入余弦相似性约束,使得BERT模型在训练早期,获得的结果的损失能够更快的下降,提高数据处理的速度;BERT模型的改进方面还包括加入融合指针网络的UniLM模型,通过融合指针网络的UniLM模型对文本下游生成任务进行微调,提前获取文本中的关键信息词,提高文本摘要的获得速度。
-
公开(公告)号:CN113505605A
公开(公告)日:2021-10-15
申请号:CN202110837745.3
申请日:2021-07-23
Applicant: 国家电网有限公司大数据中心
IPC: G06F40/30 , G06F40/216
Abstract: 本发明公开了一种核心数据识别方法及系统,该方法包括:确定核心数据的评判因素;根据所述核心数据的评判因素划分出核心数据的各个判断因子以及所述各个判断因子的权重从而构建出核心数据识别模型;确定所述各个判断因子的算法模型;导入待识别核心数据的数据资源;根据所述核心数据识别模型以及所述算法模型对导入的数据资源进行核心数据的识别。本发明提供的核心数据识别方法及系统构建了核心数据识别模型,基于该核心数据识别模型可以快速自动识别出核心数据。