-
公开(公告)号:CN107229600B
公开(公告)日:2020-06-23
申请号:CN201710398191.5
申请日:2017-05-31
Applicant: 北京邮电大学
IPC: G06F17/16
Abstract: 本发明实施例提供了一种基于大数据的并行方差分析方法及装置,该方法包括:利用分布式文件系统HDFS读取试验数据,并存储所述试验数据,所述试验数据为:行为m、列为p的矩阵,矩阵的每个元素为试验数据Xijx,其中,创建一个程序初始运行环境;根据所有试验数据,计算统计量F;加载F分布表,并查询F分布表,获得Fα值,获取信度阈值α=s0和α=s1,利用F分布表,根据信度阈值α=s0和α=s1在组间的自由度和组内的自由度对应寻找Fs0和Fs1;比较Fs0、Fs1和F,若F
-
公开(公告)号:CN107622121A
公开(公告)日:2018-01-23
申请号:CN201710872848.7
申请日:2017-09-25
Applicant: 北京邮电大学
IPC: G06F17/30
Abstract: 本发明实施例提供了一种基于位图数据结构的数据分析方法及装置,该方法包括:获得主节点分配的第一事务子集合;获得总数目及排序;根据排序确定每一目标项目的位图数据;统计每一目标项目的位图数据中第一数据与总数目之间的比例,根据统计的比例确定目标项目中的频繁1项集;将为频繁1项集的目标项目和为频繁1项集的目标项目的位图数据,广播至主节点和其他分布式子节点;接收统计项目和统计项目的位图数据;基于接收到的统计项目、统计项目的位图数据和为频繁1项集的目标项目的位图数据,计算目标项集是否为频繁项集;若目标项集为频繁项集,确定目标项集中各个项目之间的关联规则。这样,可以快速地得到关联规则以及项目之间的关联关系。
-
公开(公告)号:CN107229600A
公开(公告)日:2017-10-03
申请号:CN201710398191.5
申请日:2017-05-31
Applicant: 北京邮电大学
IPC: G06F17/16
Abstract: 本发明实施例提供了一种基于大数据的并行方差分析方法及装置,该方法包括:利用分布式文件系统HDFS读取试验数据,并存储所述试验数据,所述试验数据为:行为m、列为p的矩阵,矩阵的每个元素为试验数据Xijx,其中,创建一个程序初始运行环境;根据所有试验数据,计算统计量F;加载F分布表,并查询F分布表,获得Fα值,获取信度阈值α=s0和α=s1,利用F分布表,根据信度阈值α=s0和α=s1在组间的自由度和组内的自由度对应寻找Fs0和Fs1;比较Fs0、Fs1和F,若F
-
公开(公告)号:CN107622121B
公开(公告)日:2020-06-23
申请号:CN201710872848.7
申请日:2017-09-25
Applicant: 北京邮电大学
IPC: G06F16/2458
Abstract: 本发明实施例提供了一种基于位图数据结构的数据分析方法及装置,该方法包括:获得主节点分配的第一事务子集合;获得总数目及排序;根据排序确定每一目标项目的位图数据;统计每一目标项目的位图数据中第一数据与总数目之间的比例,根据统计的比例确定目标项目中的频繁1项集;将为频繁1项集的目标项目和为频繁1项集的目标项目的位图数据,广播至主节点和其他分布式子节点;接收统计项目和统计项目的位图数据;基于接收到的统计项目、统计项目的位图数据和为频繁1项集的目标项目的位图数据,计算目标项集是否为频繁项集;若目标项集为频繁项集,确定目标项集中各个项目之间的关联规则。这样,可以快速地得到关联规则以及项目之间的关联关系。
-
-
-