一种数据倾斜处理方法、装置、终端设备及存储介质

    公开(公告)号:CN112000467A

    公开(公告)日:2020-11-27

    申请号:CN202010728649.0

    申请日:2020-07-24

    IPC分类号: G06F9/50

    摘要: 本发明公开了一种数据倾斜处理方法、装置、终端设备及存储介质,包括基于预设的抽样算法,对数据进行抽样以获得等概率的样本数据,并通过数据的累加计算获得每一value所占空间的大小;利用数据倾斜检测模型将所述样本数据划分为倾斜数据、非倾斜数据;将所述非倾斜数据分配至预设的Hash分区,并基于动态分配算法将所述倾斜数据动态分配到各个存储分区中,以均衡Spark负载。本发明实施例通过增加一个变量权重用来预测分区大小,对数据进行抽样后利用数据倾斜检测模型将数据分类为倾斜数据和非倾斜数据,利用非倾斜数据预测Reduce分区的大小,并将倾斜数据均衡分配到各个分区中去,能够使Spark负载更均衡。

    一种基于响应时间感知的集群服务资源动态调整方法

    公开(公告)号:CN111782394A

    公开(公告)日:2020-10-16

    申请号:CN202010615656.X

    申请日:2020-06-29

    发明人: 胡程

    IPC分类号: G06F9/50 G06F9/48

    摘要: 本发明公开了一种基于响应时间感知的集群服务资源动态调整方法,该发明针对基于其它因素的调整方法下,以响应时间为衡量标准的服务质量难以保障的问题,提出以循环队列方式感知任务的服务时间,并通过监测分析各工作服务器中的任务调度队列,预估出后续任务的平均响应时间,最终以预估值为参考,反应式地调整资源量以满足服务质量要求。具体而言,已完成任务的服务时间持续被记录于循环队列,队列满时最新记录覆盖早期记录。到达资源调整时间点时,借助所记录的服务时间的均值对等待任务的响应时间进行预估,并以预估值为依据逐步调整工作服务器数量。以此方式持续调整工作服务器数量使之匹配任务量,有效保障了集群的服务质量水平。

    一种看图写作型作文自动评分方法和系统

    公开(公告)号:CN110162777B

    公开(公告)日:2020-05-19

    申请号:CN201910255362.8

    申请日:2019-04-01

    发明人: 李霞 陈敏萍

    摘要: 本发明公开了一种看图写作型作文自动评分方法和系统。所述方法包括获取所述作文文本对应的n‑gram特征,获取作文文本对应的句子表示,获取所述句子表示对应的隐含层输出矩阵,获取所述图片对应的特征向量矩阵,计算所述隐含层输出矩阵和特征向量矩阵对应的相似度矩阵,执行第一注意力操作和第二注意力操作,计算得到交互信息矩阵,以及将所述交互信息矩阵输入到全连接层,输出评分分数等步骤。本发明通过执行co‑attention机制将隐含层输出矩阵中的文本语义信息与特征向量矩阵中的视觉语义信息融合,可以实现针对看图写作型作文的自动评分。本发明广泛应用于看图写作型作文自动评分技术领域。

    基于类感知特征选择框架的文本分类方法和系统

    公开(公告)号:CN110147810B

    公开(公告)日:2020-05-19

    申请号:CN201910255365.1

    申请日:2019-04-01

    发明人: 李霞 刘汉锋

    IPC分类号: G06K9/62

    摘要: 本发明公开了一种文本分类方法。所述方法包括对多个类别簇进行预处理,得到特征词集合,分别计算各特征词与各类别簇之间的类相关度分值和类区分度分值,分别将各特征词分配给具有相应最高类相关度分值的类别簇,对各类别簇内的词语进行重新排序,从各类别簇中选取特征子集,对总特征集合内的各特征子集进行重新排序,从而得到最终特征集合,以及将向量表示后的待分类文本输入到分类器中,输出分类结果等步骤。本发明方法中分类器所处理的数据同时包含了不同类别簇各自的性质以及特征词的类内相关程度和类间区分程度等信息,克服了现有技术的片面性,能够达到更优的文本分类效果。本发明广泛应用于文本分类技术领域。

    一种复制-粘贴篡改图像检测方法

    公开(公告)号:CN110910345A

    公开(公告)日:2020-03-24

    申请号:CN201910983926.X

    申请日:2019-10-16

    IPC分类号: G06T7/00 G06T7/11

    摘要: 本发明公开了一种复制-粘贴篡改图像检测方法,包括步骤:将被检测图像转换成单通道的灰度图像;将灰度图像分割成相互重叠的图像块;将所述二维灰度图像定义在AFMT标准的极坐标系;将所述二维灰度图像的AFMT极坐标系转换到笛卡尔坐标离散域中,将所有图像块的特征向量M组成矩阵V;对所述矩阵V进行字典排序,得到矩阵Vt,矩阵V和Vt的尺寸一致;使用斯皮尔曼秩相关系数去评估和分析字典排序的结果,相似的区域通过斯皮尔曼等级相关系数判断是否是复制-移动区域。与现有技术相比,本发明可以检测缩放的复制-粘贴篡改图像,同时具有较好的旋转不变性,能检测旋转篡改的操作。

    基于离散极性复指数变换的合成图像篡改检测方法

    公开(公告)号:CN110728653A

    公开(公告)日:2020-01-24

    申请号:CN201910835245.9

    申请日:2019-09-05

    IPC分类号: G06T7/00 G06T7/33

    摘要: 本发明公开了基于离散极性复指数变换的合成图像篡改检测方法,包括步骤:构造具有旋转不变矩的极性复指数变换的框架;在具有旋转不变矩的极性复合指数变换的框架下进行离散化,构造离散的极性复合指数变换的旋转不变矩;将被检测图像转变为灰度图像,并将被检测图像定义在一个离散空间域;构造一个9×9的像素模板,在像素模板中实现离散的极性复合指数变换的旋转不变矩由极坐标空间到笛卡尔空间近似映射;使用离散的极性复合指数变换的旋转不变矩提取被检测图像的特征,得到有效的图像特征;通过一致性敏感哈希运算得到匹配特征对,并抠图显示。本发明针对平移和旋转形变的复制-粘贴篡改图像,其检测成功率更高,且消除了背景干扰。

    一种快递信息保护方法
    37.
    发明公开

    公开(公告)号:CN110610096A

    公开(公告)日:2019-12-24

    申请号:CN201910831830.1

    申请日:2019-09-04

    IPC分类号: G06F21/60 G06F21/62 G06Q10/08

    摘要: 本发明公开了一种快递信息保护方法,基于密文策略属性基加密算法,包括以下步骤:用户通过移动终端输入寄件人信息、收件人信息和快递物品信息;对输入信息进行加密,并将加密后的信息发送到快递中心;快递中心申请虚拟中间号,并指派取件员;取件员上门揽件,生成隐形面单,并将快递包裹投运到快递中转站;快递中转站指派送件员进行派送;收件人验证快递物品信息和所收到的包裹中的物品信息是否一致。通过对寄件人信息、收件人信息和快递物品信息进行加密,可以有效防止用户个人信息被非工作人员窃取,以及,通过用虚拟中间号来替代手机号码的方式,还可以避免工作人员泄露用户手机号码的情况出现,大大提高了用户隐私信息的安全性。

    一种看图写作型作文自动评分方法和系统

    公开(公告)号:CN110162777A

    公开(公告)日:2019-08-23

    申请号:CN201910255362.8

    申请日:2019-04-01

    发明人: 李霞 陈敏萍

    摘要: 本发明公开了一种看图写作型作文自动评分方法和系统。所述方法包括获取所述作文文本对应的n-gram特征,获取作文文本对应的句子表示,获取所述句子表示对应的隐含层输出矩阵,获取所述图片对应的特征向量矩阵,计算所述隐含层输出矩阵和特征向量矩阵对应的相似度矩阵,执行第一注意力操作和第二注意力操作,计算得到交互信息矩阵,以及将所述交互信息矩阵输入到全连接层,输出评分分数等步骤。本发明通过执行co-attention机制将隐含层输出矩阵中的文本语义信息与特征向量矩阵中的视觉语义信息融合,可以实现针对看图写作型作文的自动评分。本发明广泛应用于看图写作型作文自动评分技术领域。

    印尼语文档摘要生成方法、装置、存储介质及终端设备

    公开(公告)号:CN109325110A

    公开(公告)日:2019-02-12

    申请号:CN201810979183.4

    申请日:2018-08-24

    摘要: 本发明公开了一种印尼语文档摘要生成方法,包括:对印尼语文档进行预处理;根据预设的映射字典将预处理后的所述印尼语文档转化为输入向量;基于预先训练的印尼语摘要模型根据所述输入向量获得输出向量;根据所述映射字典将所述输出向量转化为所述印尼语文档的文档摘要。相应的,本发明还公开了一种印尼语文档摘要生成装置、计算机可读存储介质及终端设备,采用本发明的技术方案能够实现印尼语文档摘要的自动生成,并且摘要结果具有连贯性,能够完整地概括文档内容。

    多语言新闻文本聚类方法、存储介质及终端设备

    公开(公告)号:CN109063184A

    公开(公告)日:2018-12-21

    申请号:CN201810979185.3

    申请日:2018-08-24

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种多语言新闻文本聚类方法,包括:预先获取多语言新闻文本中的每一篇单语言新闻文本的文本特征;基于关键词重合度根据每一篇所述单语言新闻文本的文本特征对所述单语言新闻文本进行聚类,对应获得每一种所述单语言新闻文本的单语言聚类簇集合;根据每一种所述单语言新闻文本的单语言聚类簇集合获得所述多语言新闻文本的跨语言聚类簇集合。相应的,本发明还公开了一种计算机可读存储介质及终端设备。采用本发明的技术方案能够不依赖于多语言资源实现大规模的多语言新闻文本聚类,满足对中文、英语、印尼语和马来语的多语言网络舆情分析的需求,并提高聚类速度和效率。