-
公开(公告)号:CN105183813A
公开(公告)日:2015-12-23
申请号:CN201510532920.2
申请日:2015-08-26
申请人: 山东省计算中心(国家超级计算济南中心)
CPC分类号: G06F17/30705 , G06K9/6215 , G06K9/6269
摘要: 本发明的基于互信息的用于文档分类的并行特征选择方法,包括a).选取样本并分类;b).求解词的TF-IDF值;c).生成初始化数据集合D={x1,x2,…,xN};d).分布式计算,将所有子数据集平均分布到m个计算节点上;e).建立集合,S=Φ,V={X1,X2,…,XM};f).计算联合、条件概率分布;g).计算互信息;h).选取特征变量;i).判断数量是否已够;j).文本分类。本发明的文档分类的并行特征选择方法,基于瑞利熵的互信息被用来度量特征变量与类变量之间的相关性,使得最终选取的特征变量更能代表文档分类的特征,分类效果更准确,分类结果要好于目前常用特征选择方法得到的结果,有益效果显著,适于推广应用。
-
公开(公告)号:CN117473386A
公开(公告)日:2024-01-30
申请号:CN202311437250.7
申请日:2023-10-31
IPC分类号: G06F18/241 , G06F18/213 , G06N3/0464 , G06N3/08 , G06F18/27
摘要: 本发明提出了一种基于差异化提示字符的分层级文本分类方法及系统,涉及文本分类技术领域,设计一个预置多个占位符的分层级预测提示模版;分别对第一层级的类别集合和第二层级的类别集合进行语义特征提取与聚合,得到第一层级和第二层级的差异化提示字符;将待分类文本、第一层级和第二层级的差异化提示字符填充到分层级预测提示模版的相应占位符中,得到待预测序列;将待预测序列输入到预训练语言模型中,对第一层级类别掩码和第二层级类别掩码进行预测,得到最终的预测结果。本发明基于设计的分层级预测提示模版,使用提示学习,在小样本背景下,将文本分类的问题转化为完形填空问题,基于对预训练语言模型的知识挖掘,实现分层级的文本分类任务。
-
公开(公告)号:CN113240427A
公开(公告)日:2021-08-10
申请号:CN202110540666.6
申请日:2021-05-18
申请人: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
摘要: 本发明公开了一种基于区块链的可信交易和服务信誉评价方法,首先通过认证系统进行实名认证。然后通过数据发布系统对交易信息进行发布。在发布交易信息中,需要对交易信息进行二次认证。双方达成初步意愿后,通过信息采集平台对进行二次认证,并通过担保平台和支付平台进行支付。在交易过程中,交易流程模块构建流程状态图,实施追踪交易进展情况。完成交易后,通过综合反馈模块对发布信息人和需求信息人进行二次评价分数统计。与现有技术相比本发明的有益效果是:通过多级评价方案对相关信息进行综合评分,以保证信息的可靠性和真实性,在费用支付上采用多级担保的方式,提高双方交易的可信赖度,促进交易的成功转换。
-
公开(公告)号:CN113221001A
公开(公告)日:2021-08-06
申请号:CN202110541178.7
申请日:2021-05-18
申请人: 山东省计算中心(国家超级计算济南中心)
IPC分类号: G06F16/9535 , G06F40/216 , G06Q40/02
摘要: 本发明公开了一种基于大数据的科技服务智能匹配、推荐的方法,其特征在于,包括如下步骤:企业通过服务平台进行实名认证和资质上传,并对企业的经营内容进行关键词的整理和分类,形成若干个领域模块的企业名录;企业通过搜索引擎模块进行检索;同时数据采集模块自动采集搜索引擎模块中录入的关键信息并进行存储;检索后的相关信息通过公示模块进行展示;数据采集模块通过整理检索信息关键词的频率和企业经营内容,通过推荐匹配模块单独在搜索引擎模块的一侧进行显示。与现有技术相比本发明的有益效果是:特点是使用操作简单,推荐准确性高,安全可靠。
-
公开(公告)号:CN107247954A
公开(公告)日:2017-10-13
申请号:CN201710461311.1
申请日:2017-06-16
申请人: 山东省计算中心(国家超级计算济南中心)
CPC分类号: G06K9/6218 , G06K9/46 , G06N3/08
摘要: 本发明公开一种基于深度神经网络的图像离群点检测方法,该方法采用深度神经网络提取图像特征,基于扩展熵的信息损失量度量图像之间的距离,在此基础上,提出基于聚类的图像异常检测方法,不合格图像检测方法的有效性通过实例分析得以验证,并提高不合格图像检测的效率。
-
公开(公告)号:CN113704229A
公开(公告)日:2021-11-26
申请号:CN202111026786.0
申请日:2021-09-02
申请人: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
IPC分类号: G06F16/21 , G06F16/2455
摘要: 本发明涉及计算机信息技术领域,具体地涉及一种基于业务审核及检索的数据标签管理方法,包括待审核业务数据收集,所述业务数据包括业务参数及审核业务参数的审核规则;根据业务参数确定业务数据对应的业务节点;开展标签需求数据源的收集和分析;对数据源进行整合生成标签;构建数据标签库以供业务审核及检索应用,根据数据源情况,构建所需标签数据库;根据标签数据库创建标签规则和检索规则,所述标签规则包括标签管理信息规则和标签值信息管理规则。本发明对数据标签进行有效管理,构建标签数据库,便于业务应用,为业务审核和检索提供了支撑,实现了高效的数据标签管理。
-
公开(公告)号:CN112328928A
公开(公告)日:2021-02-05
申请号:CN202011361478.9
申请日:2020-11-27
申请人: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
IPC分类号: G06F16/957 , G06F16/958 , G06Q10/10
摘要: 本发明提供了一种基于结构序列的文本脉络抽取方法及系统,本发明通过分析文本序列的组织结构,匹配文本序列的结构规则,抽取文本序列各结构的对应文本内容构成文本脉络,实现对各类结构化序列文本主干内容的有效抽取,相比现有技术中通过人工归纳总结大篇幅正文主干内容耗时费力且效率低的问题,本发明使得结构序列的文本脉络提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时具有较高的准确率。
-
公开(公告)号:CN109840279A
公开(公告)日:2019-06-04
申请号:CN201910025175.0
申请日:2019-01-10
申请人: 山东亿云信息技术有限公司 , 山东省计算中心(国家超级计算济南中心)
摘要: 本发明公开一种基于卷积循环神经网络的文本分类方法,充分利用卷积神经网络提取局部特征的优势对文本进行特征提取,同时利用LSTM具有记忆的优势将提取的上下文特征联系起来更好地表示文本的语义信息。该方法不仅在英文数据集上取得较好的分类效果同时在中文数据集上也取得较高的分类准确率。
-
公开(公告)号:CN107368587A
公开(公告)日:2017-11-21
申请号:CN201710606624.1
申请日:2017-07-24
申请人: 山东省计算中心(国家超级计算济南中心)
摘要: 本发明公开一种基于扩展熵的无监督特征的选择方法及系统,所述选择方法包括根据原始备选特征集中的任意备选特征变量与剩余备选特征变量之间的相关度选择第一个特征变量添加到已选特征集中,从原始备选特征集中剔除第一个特征变量;根据当前备选特征集中的任意备选特征变量与剩余备选特征变量之间的相关度,与已选特征集之间的冗余信息程度,确定当前特征变量以及相关度变化参数;将当前备选特征变量添加到已选特征集中;判断相关度变化参数是否小于设定阈值,如果是则选择结束;否则,将从当前备选特征集中剔除当前特征变量,继续选择下一个特征变量。本发明可处理连续的特征变量,以提高选择的特征变量组合的信息量。
-
公开(公告)号:CN117009525A
公开(公告)日:2023-11-07
申请号:CN202310994477.5
申请日:2023-08-08
IPC分类号: G06F16/35 , G06F40/30 , G06F18/2415 , G06F18/22 , G06F18/27 , G06N3/0464 , G06N3/084 , G06N3/042 , G06N5/04
摘要: 本发明属于文本分类技术领域,提供了基于提示学习的虚拟类表示的小样本文本分类方法及系统,其方案为:将原始文本序列和提示模板整合,将文本分类任务转化为完形填空任务,得到整合后的带有MASK的输入序列;基于整合后的带有MASK的输入序列和预训练语言模型,得到MASK位置的最后一层隐藏层的回归值;为每一类设计一个相同长度的随机数字作为类的虚拟表示,随机初始化一个嵌入机制,并将虚拟类表示放入随机初始化嵌入机制得到类的初始表示;基于类的初始表示进行多维度特征提取得到每一个类表示向量;将MASK位置的最后一层隐藏层的回归值和每一个类表示向量求余弦相似度,将求得的相似度向量最大值的索引作为最终的分类预测结果。
-
-
-
-
-
-
-
-
-