时态数据集上的实体识别方法

    公开(公告)号:CN109543712A

    公开(公告)日:2019-03-29

    申请号:CN201811200645.4

    申请日:2018-10-16

    IPC分类号: G06K9/62

    摘要: 本发明涉及计算机技术领域,提供一种时态数据集上的实体识别方法。该方法主要包括以下步骤:S1:基于规则对数据进行预处理;S2:框架聚类;S3:类融合。本发明首次针对无时间戳的时态数据集合上实体识别问题上提出了解决方法,定义了时态数据集上属性的不确定性,并相应地对记录之间的相似度计算采用了动态权重的计算方法,这种动态权重计算方法的效果是明显优于固定权重的。本发明有效地结合了否定匹配依赖规则和时序约束规则,减少了算法运行的时间并保证了算法输出的结果,对于实体识别中的聚类分析阶段,提出了新颖的时态聚类算法。

    一种基于知识库图匹配的数据清洗方法及装置

    公开(公告)号:CN109063048A

    公开(公告)日:2018-12-21

    申请号:CN201810789814.6

    申请日:2018-07-18

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种基于知识库图匹配的数据清洗方法,包括:根据待清洗的数据库生成查询语句;对查询语句进行数据转图并合并相似条目,生成搜索图;所述搜索图采用二级索引表示,包括两个标签;根据所有所述搜索图的标签对知识库进行筛选,筛选出满足所述搜索图中一组第一个标签和第二个标签所示信息的数据,转图并合并相似条目,转为知识库大图;将搜索图与知识库大图进行图匹配操作,返回查询结果;根据返回的查询结果,对待清洗的数据库进行清洗。本发明还提供了一种基于知识库图匹配的数据清洗装置。本发明通过图匹配快速查询知识库实现对数据库的清洗,能够减少数据存储所占空间,简化查询结果,减少查询时间,提升清洗的效率。

    一种基于集成学习的特征选择方法及装置

    公开(公告)号:CN108764486A

    公开(公告)日:2018-11-06

    申请号:CN201810499148.2

    申请日:2018-05-23

    IPC分类号: G06N99/00

    摘要: 本发明涉及一种基于集成学习的特征选择方法,包括:从原始数据集中抽取训练集和验证集;利用训练集对各个基学习器进行预训练,对特征选择结果进行评估,初始化基学习器的投票权重;基于基学习器的投票权重,利用训练集进行多轮集成学习,其中,每轮集成学习包括:根据基学习器的投票权重,将基学习器的特征选择结果进行加权投票,获取集成后的特征选择结果;利用验证集对特征选择结果进行评估,调节基学习器的投票权重。本发明还提供了一种基于集成学习的特征选择装置,上述方法及装置可针对不同原始数据集调节各个基学习器的投票权重,提升集成特征选择方法的普适性。

    一种基于历史任务分析的Apache Spark应用自动化调优方法

    公开(公告)号:CN108255689A

    公开(公告)日:2018-07-06

    申请号:CN201810026098.6

    申请日:2018-01-11

    IPC分类号: G06F11/34

    CPC分类号: G06F11/3476 G06F11/3419

    摘要: 本发明提出了一种基于历史任务分析的Apache Spark应用自动化调优方法,包括对Spark应用的任务提交接口进行封装,判断是否已有该Spark应用的分层灰盒时间预测模型,访问数据库,读取并更新所述分层灰盒时间预测模型,用户选择是否进行优化;如果进行优化则生成优化参数,如果不进行优化则按原参数执行,调用shell命令运行任务。本发明充分地利用了已知的集群硬件资源信息,选择并实现一了个能够在高维参数空间上对最优参数进行高效搜索方案,从而筛选出在建立的分层灰盒时间预测模型下,性能表现较优的配置参数,达到实现自动化Spark参数调优的目的。

    时态数据集上的实体识别方法

    公开(公告)号:CN109543712B

    公开(公告)日:2023-04-07

    申请号:CN201811200645.4

    申请日:2018-10-16

    IPC分类号: G06F18/231

    摘要: 本发明涉及计算机技术领域,提供一种时态数据集上的实体识别方法。该方法主要包括以下步骤:S1:基于规则对数据进行预处理;S2:框架聚类;S3:类融合。本发明首次针对无时间戳的时态数据集合上实体识别问题上提出了解决方法,定义了时态数据集上属性的不确定性,并相应地对记录之间的相似度计算采用了动态权重的计算方法,这种动态权重计算方法的效果是明显优于固定权重的。本发明有效地结合了否定匹配依赖规则和时序约束规则,减少了算法运行的时间并保证了算法输出的结果,对于实体识别中的聚类分析阶段,提出了新颖的时态聚类算法。

    一种基于历史任务分析的Apache Spark应用自动化调优方法

    公开(公告)号:CN108255689B

    公开(公告)日:2021-02-12

    申请号:CN201810026098.6

    申请日:2018-01-11

    IPC分类号: G06F11/34

    摘要: 本发明提出了一种基于历史任务分析的Apache Spark应用自动化调优方法,包括对Spark应用的任务提交接口进行封装,判断是否已有该Spark应用的分层灰盒时间预测模型,访问数据库,读取并更新所述分层灰盒时间预测模型,用户选择是否进行优化;如果进行优化则生成优化参数,如果不进行优化则按原参数执行,调用shell命令运行任务。本发明充分地利用了已知的集群硬件资源信息,选择并实现一了个能够在高维参数空间上对最优参数进行高效搜索方案,从而筛选出在建立的分层灰盒时间预测模型下,性能表现较优的配置参数,达到实现自动化Spark参数调优的目的。

    智能钥匙
    17.
    发明授权

    公开(公告)号:CN109972918B

    公开(公告)日:2020-11-13

    申请号:CN201810077031.5

    申请日:2018-01-26

    IPC分类号: E05B19/22 E05B19/00

    摘要: 本发明涉及单片机和传感器技术领域,提供一种智能钥匙。本发明的智能钥匙包括:触摸开关、单片机、至少两个滚珠传感器、实时时钟模块、电源模块和显示屏;所述触摸开关与所述单片机连接,用于发送外部唤醒信号给所述单片机;所述单片机与所述至少两个滚珠传感器连接,用于在接收所述外部唤醒信号后根据所述至少两个滚珠传感器的检测信号识别锁门动作;所述实时时钟模块与所述单片机连接,用于计时并将锁门时间提供给所述单片机;所述电源模块用于给其他各组成部分供电;所述显示屏与所述单片机连接,用于显示锁门时间。本发明的智能钥匙可以识别锁门的动作并记录锁门的时间,对钥匙的改动较小,采用滚珠传感器识别锁门动作,程序设计简单。

    一种基于层次聚类的过采样方法及系统

    公开(公告)号:CN109255380A

    公开(公告)日:2019-01-22

    申请号:CN201811011756.0

    申请日:2018-08-31

    IPC分类号: G06K9/62

    摘要: 本发明涉及数据处理技术领域,提供了一种基于层次聚类的过采样方法及系统,该方法包括:对少数类样本进行聚类;对聚类得到的类簇进行连接;为每个少数类的类簇及类簇的连接部分分配权重;根据分配的权重确定每个少数类的类簇及连接部分被选取的概率,并根据所述概率在类簇和类簇的连接部分根据种子数据生成新数据。本发明在聚类以及生成新样本时采取了多种措施使得生成的数据在一定忍耐限度内能够满足尽量不产生和扩大噪声的要求,并且在识别子概念的同时充分考虑了类内不平衡的处理,从而使得本发明的方法对于少数类中的子概念能够提供足够的关注,达到提升分类器学习效果的目的。

    一种针对时间序列的异常值修复方法及装置

    公开(公告)号:CN109063145A

    公开(公告)日:2018-12-21

    申请号:CN201810889862.2

    申请日:2018-08-07

    IPC分类号: G06F17/30 G06F17/11 G06F11/07

    CPC分类号: G06F11/0793 G06F17/11

    摘要: 本发明涉及数据处理技术领域,提供了一种针对时间序列的异常值修复方法及装置,该方法依次对时间序列的每个数据点进行修复,包括:基于方差规则的约束确定当前数据点的多个窗口对应的候选项;根据当前数据点的多个窗口对应的候选项求取加权平均值得到当前数据点的修复值。本发明通过采用方差的约束规则,限定了数据的变化范围,并且通过获取窗口对应的候选项,采用加权平均值的方式得到最终的修复值,其置信度更高,可以对来自于各种领域的时间序列进行较好的异常值修复。

    数据分类方法、装置及存储介质

    公开(公告)号:CN108564137A

    公开(公告)日:2018-09-21

    申请号:CN201810413155.6

    申请日:2018-05-03

    IPC分类号: G06K9/62

    摘要: 本发明提供一种数据分类方法、装置及存储介质,以通过集成学习的方式,直接对有缺失值的数据集进行分析,尽可能得到高质量的分析结果。该方法包括:获取不完整数据集中待分类元组的缺失属性集,并根据所述缺失属性集确定所述待分类元组在MAT结构中的目标节点,其中,所述MAT结构的每一节点表示缺失某一属性集合的数据样本集合;将所述目标节点以及所述目标节点以下且属于所述目标节点所在支路的每一节点分别作为一个完整视图,并基于每一所述完整视图分别训练一基本分类器;通过对得到的每一所述基本分类器进行排序组合,得到目标分类器;利用所述目标分类器对所述待分类元组进行数据分类。