一种基于分布式计算的数据依赖挖掘方法及系统

    公开(公告)号:CN109325062B

    公开(公告)日:2020-09-25

    申请号:CN201811061441.7

    申请日:2018-09-12

    发明人: 王宏志 张翔熙

    IPC分类号: G06F16/2458

    摘要: 本发明涉及数据处理技术领域,提供了一种基于分布式计算的数据依赖挖掘方法及系统,其中方法包括:数据重分配步骤、根据原始数据集生成属性相似倒排表;一阶依赖挖掘步骤、根据所述属性相似倒排表挖掘一阶数据依赖关系;高阶依赖挖掘步骤、逐级进行高阶数据依赖关系的挖掘,其中生成高阶数据依赖候选集,并基于挖掘的低阶数据依赖关系对高阶数据依赖候选集进行剪枝,利用属性相似倒排表对剪枝后的高阶数据依赖候选集中的高阶数据依赖关系进行验证。本发明通过生成属性相似倒排表,并采用递推式的数据依赖关系挖掘方式,使得数据依赖挖掘的可靠性和准确性更高。

    基于关联规则的社交网络用户信息填充方法

    公开(公告)号:CN111400571A

    公开(公告)日:2020-07-10

    申请号:CN202010075197.0

    申请日:2020-01-22

    摘要: 基于关联规则的社交网络用户信息填充方法,涉及网络技术领域。本发明是为了解决社交网络用户信息填充的准确性差的问题。本发明基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息;利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词,并提取每个有效用户的关键词;利用FP-Growth算法对有效用户的关键词进行关联,利用强关联规则集合将信息缺失的用户与无信息缺失的用户进行不同关键词关联,利用与其关联的无信息缺失用户的信息对信息缺失用户缺失的信息进行填充,或者使用补充算法KNNI对信息缺失用户缺失的信息进行填充。本发明适用于网络平台用户信息填充使用。

    机器学习算法的参数调优方法及系统

    公开(公告)号:CN111260078A

    公开(公告)日:2020-06-09

    申请号:CN202010036816.5

    申请日:2020-01-14

    IPC分类号: G06N20/00 G06N3/08 G06N5/02

    摘要: 一种机器学习算法的参数调优方法及系统,具有自动化、快速高效及具有普适性,属于机器学习领域。本发明包括:S1、输入用户数据集和待调参数算法,提取用户数据集的特征;S2、在神经网络数据库中,找到待调参数算法的神经网络,将S1提取的特征输入该神经网络中,该神经网络输出待调参数算法的参数;所述神经网络数据库包括根据各种机器学习算法建立及训练好的神经网络,具体构建方法为:构建适用于机器学习算法的数据集的知识库;提取知识库中每个数据集的特征;找到在各数据集上运行各机器学习算法的最优参数;建立每个机器学习算法的神经网络,利用数据集的特征和对应的最优参数作为训练集对对应的神经网络进行训练,获得训练好的神经网络。

    一种电视用户收视偏好分析方法

    公开(公告)号:CN110996144A

    公开(公告)日:2020-04-10

    申请号:CN201911314363.1

    申请日:2019-12-19

    IPC分类号: H04N21/258 H04N21/25

    摘要: 本发明涉及一种电视用户收视偏好分析方法,包括:获取数据,进行格式整理及清洗,得到清洗后的数据条目;提取数据条目中的频道名称、节目名称,并对节目进行分类;将数据条目按频道名称分别存储,并根据时段归类;选定时段,对数据条目分类,统计所选时段内频道名称、节目名称、节目类别出现频次,得到热点词统计报告;抽选用户;将数据条目按照用户CA卡号分别存储,根据时段对数据条目归类,并按照时间顺序对事件标识排序,得到用户在各时段内的时序事件序列;生成行为模式图;提取体现偏好倾向的用户行为模式;进行用户行为识别,根据识别结果分析所选用户偏好,得到用户收视偏好报告。该方法能够更为准确、全面的分析用户收视偏好。

    一种基于倒排索引的评估类文档不定长词句的查询方法

    公开(公告)号:CN109284352A

    公开(公告)日:2019-01-29

    申请号:CN201811153438.8

    申请日:2018-09-30

    IPC分类号: G06F16/31 G06F17/27

    摘要: 一种基于倒排索引的评估类文档不定长词句的查询方法,它涉及数据科学领域的索引方法以及NLP领域的分词方法,解决了评估类文档不定长词句的查询问题。本发明的步骤为:一、对待查询文档进行数据预处理,利用jieba分词方法进行分词处理,得到单词词典与词频信息;二、基于完全重建策略的倒排索引原理建立自适应倒排表;三、结合待查找不定长词句的信息,通过自适应倒排表索引词句中各个单词位置信息,识别不定长词句位置信息并索引其所在段落,来完成评估类文档不定长词句的查询功能。本发明的基本思想是对文本数据进行分词,建立倒排索引,进而实现快速搜索不定长词句,从而实现对评估类文档的查询功能。应用场景广泛,因而具有很高的社会经济价值。

    一种针对低维数据样本筛选的支持向量机加速方法及装置

    公开(公告)号:CN109117887A

    公开(公告)日:2019-01-01

    申请号:CN201810942190.7

    申请日:2018-08-17

    IPC分类号: G06K9/62 G06N99/00

    摘要: 本发明涉及数据处理技术领域,提供了一种针对低维数据样本筛选的支持向量机加速方法及装置,该方法包括:对原始样本的区域边界进行逐级的网格划分,并确定分类边界;根据分类边界选取边界样本,作为筛选后的训练样本;使用所述筛选后的训练样本进行支持向量机的训练。本发明针对低维数据的分类问题,对给定样本进行网格划分,找到分类边界处的样本,并把他们提取出来,得到有效的支持向量机训练样本,最大程度上减少参与下一步实际的支持向量机训练的无效样本,实现了对支持向量机训练计算过程的加速。

    大规模知识图谱的错误连接关系诊断及修正方法

    公开(公告)号:CN109086356A

    公开(公告)日:2018-12-25

    申请号:CN201810787761.4

    申请日:2018-07-18

    IPC分类号: G06F17/30

    摘要: 本发明提供了一种大规模知识图谱的错误连接关系诊断及修正方法,其中诊断方法包括:构建知识图谱的层次结构,确定知识图谱中每个节点所处的层级;基于所述知识图谱的层次结构,提取节点的连接关系集合,所述连接关系集合中包含指向自己的所有IsA关系;判断同一层级上节点之间的关系;对于同一层级上被判定为相矛盾含义的节点对,诊断为其中包括错误连接关系,并继续对其上级进行搜索。本发明在不引入其它外源知识的情况下,利用知识图谱本身知识之间的关系,对具有IsA关系的图谱实现错误连接关系的检测并修正。

    内存受限情况下的大规模知识图谱的实时查询方法和系统

    公开(公告)号:CN109033314A

    公开(公告)日:2018-12-18

    申请号:CN201810787762.9

    申请日:2018-07-18

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明涉及数据处理技术领域,提供了一种内存受限情况下的大规模知识图谱的实时查询方法及系统,该方法包括:对原始知识图谱进行处理分析得到倒排文件哈希列表;基于原始知识图谱构建多级结构索引;对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。本发明大大的提高了单机知识图谱查询能力,能够在内存极度受限的情况下给出既满足用户时间需求又满足用户精度需求的结果集。

    一种基于知识图谱中实体相似度的社区发现方法及装置

    公开(公告)号:CN108959370A

    公开(公告)日:2018-12-07

    申请号:CN201810498426.2

    申请日:2018-05-23

    IPC分类号: G06F17/30 G06Q50/00

    CPC分类号: G06Q50/01

    摘要: 本发明涉及数据处理技术领域,提供了一种基于知识图谱中实体相似度的社区发现方法及装置,该方法包括:使用知识图谱存储社交网络数据,并计算杰卡德距离得到相似度矩阵;根据所述相似度矩阵计算所述知识图谱中的相似节点集合;根据所述相似节点集合进行迭代的标签传播,并根据迭代后的每个节点的标签列表来确定该节点最终的社区标签,以进行社区发现。我们利用知识图谱存储社区网络,避免了对缺失数据的结构的存储,同时以此为基础将杰卡德距离作为相似度的计算基准,使其准确度更高。

    一种基于LSTM网络的数据预测模型调优方法及装置

    公开(公告)号:CN108764568A

    公开(公告)日:2018-11-06

    申请号:CN201810520868.2

    申请日:2018-05-28

    IPC分类号: G06Q10/04

    CPC分类号: G06Q10/04

    摘要: 本发明涉及一种基于LSTM网络的数据预测模型调优方法,包括预处理:获取所述待预测变量前N小的周期值;提取相关系数之和大于系数阈值的前数个变量在数据集中的数据组成训练集;模型训练:按照周期值从小到大的顺序,共进行N轮训练,求得优化解模型;每轮训练均包括:将所述训练集由时间序列数据转化为监督学习序列;将监督学习序列输入LSTM网络,得到本轮训练模型;利用本轮训练模型得到均方根误差并与上轮训练的均方根误差进行比较,保留其中较小值对应的训练模型为优化解模型。本发明还涉及一种基于LSTM网络的数据预测模型调优装置。本发明提供的调优方法及装置在LSTM网络的基础上优化,可用于数据预测,计算速度快,且预测效果好。