一种基于LSTM自编码器的耕地闲置识别方法

    公开(公告)号:CN118628925A

    公开(公告)日:2024-09-10

    申请号:CN202410705819.1

    申请日:2024-06-03

    摘要: 本发明公开了一种基于LSTM自编码器的耕地闲置识别方法,包括采集预设区域的时序数据,对所述时序数据进行预处理,对所述时序多光谱遥感图像进行逐月聚合并取中值获得时间段聚合时序HLS影像,对所述时序遥感影像进行逐月聚合并取低值获得时间段聚合时序SAR影像,根据所述时间段聚合时序HLS影像所述耕地特征,将土地覆被分成三种模式,根据所述三种模式分别构建LSTM自编码器模型,优化所述LSTM自编码器模型,将闲置耕地的所述植被指数输入LSTM自编码器模型确定残差分布阈值,将待识别数据输入LSTM自编码器模型,输出识别结果。该方法不仅可以提高基于LSTM自编码器的耕地闲置识别的精度,同时具有较好的可解释性,可以直接应用于耕地闲置识别系统中。

    一种多变量时间序列数据聚类方法

    公开(公告)号:CN111488924B

    公开(公告)日:2024-04-26

    申请号:CN202010265442.4

    申请日:2020-04-07

    发明人: 王婷 崔运鹏 刘娟

    摘要: 本发明公开了一种多变量时间序列数据聚类方法,包括对多变量时间序列数据进行归一化预处理;构建深度学习无监督学习模型稀疏自编码器,对多变量时间序列数据进行特征提取以构建新特征序列;获取样本数据新特征序列的聚类K值;基于欧式距离计算不同样本数据新特征序列之间的距离;对样本数据的新特征序列集进行聚类;根据聚类结果分析多变量时间序列数据的潜在模式。本发明通过稀疏自编码器模型和聚类方法,提高处理大规模数据的效率,并构建稀疏自编码器模型以提高模型对多变量时间序列数据提取新特征序列的性能,同时根据欧式距离构建了多变量距离计算模型以实现对多变量时间序列数据的聚类。

    基于时序遥感数据的弱监督LSTM循环神经网络稻田识别方法

    公开(公告)号:CN112836725A

    公开(公告)日:2021-05-25

    申请号:CN202110032036.8

    申请日:2021-01-11

    摘要: 本发明公开了一种基于时序多光谱及微波遥感数据的弱监督LSTM循环神经网络稻田识别方,发明基于地面实测数据构建SAR标准时序曲线,并对SAR时序遥感数据进行DTW距离计算,依据DTW距离进行样本标注,构建高置信度的弱标签样本集,融合多光谱及SAR输入特征,基于LSTM的深度学习分类器采用弱标签样本加实测样本的训练集对分类器进行训练后提取预测结果中的水稻分类作为最终稻田识别结果。该方法可以用于像素级别的稻田识别预测,通过SAR曲线的DTW距离可标注获得高置信度的训练数据,减少对地面采样数据的依赖,可有效降低地面采样成本。

    一种生物信息深度挖掘分析系统的架构构建方法

    公开(公告)号:CN112151114A

    公开(公告)日:2020-12-29

    申请号:CN202011124509.9

    申请日:2020-10-20

    IPC分类号: G16B20/20 G16B10/00 G06N20/00

    摘要: 本发明公开了一种生物信息深度挖掘分析系统的架构构建方法,包括如下步骤:S1:构建高通量计算一体化集群网络环境;S2:集成生物信息工具,形成生物信息挖掘分析方法调用库和生物信息挖掘分析流程模板;S3:基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型;S4:基于Spark Streaming构建生物信息挖掘分析任务的调度和处理模型本发明具有提高多个挖掘分析工具之间的数据交换性能,降低挖掘分析过程的复杂程度,减少挖掘分析任务尤其是多个任务并发场景下的执行时间等优点。

    一种基于词向量模型的机构名称规范方法

    公开(公告)号:CN111984776A

    公开(公告)日:2020-11-24

    申请号:CN202010844347.X

    申请日:2020-08-20

    摘要: 本发明公开了一种基于词向量模型的机构名称规范方法,包括:分析科技文献数据机构名称字段特征,选取机构相关字段;提取文献相关字段信息文本,并对相关字段进行清洗和变换;采用word2vec词向量方法对提取文本信息构建词向量模型并对机构名称进行聚类;结合词向量模型和聚类文件查找相似度高的词,从中识别并提取机构名称;采用Jaro相似度方法通过设置阈值计算匹配相似机构名称。本发明能有效改善基于海量数据的科技评价中的数据可靠性问题,规范科技文献数据库中的机构名称存储与管理,从而提升科技文献数据库建设的规范性。

    一种基于深度学习的上位词挖掘方法及系统

    公开(公告)号:CN118780281A

    公开(公告)日:2024-10-15

    申请号:CN202310371998.5

    申请日:2023-04-10

    摘要: 本发明提出一种基于深度学习的上位词挖掘方法和系统,包括:获取目标文本和目标文本语言上位词的句法规则,提取目标文本中词语,通过挖掘其共下位词,将词语进行扩展,将词语及其扩展结果作为查询词,通过句法规则在语料库中检索查询词的上位词并进行打分排序,选择分数最高的上位词作为无监督挖掘结果;根据查询词和语料库中候选上位词的嵌入向量,度量查询词和候选上位词是上下位关系的可能性,选择可能性最大的候选上位词嵌入向量对应的候选上位词作为有监督挖掘结果;通过归一化并求和对有监督挖掘结果和无监督挖掘结果进行重打分,选择重打分结果排名最高的有监督挖掘结果和/或无监督挖掘结果作为最终的目标文本的上位词挖掘结果。

    一种基于词性标记的领域新词提取方法、系统及设备

    公开(公告)号:CN116562281A

    公开(公告)日:2023-08-08

    申请号:CN202310826531.5

    申请日:2023-07-07

    IPC分类号: G06F40/284 G06F40/289

    摘要: 本发明公开了一种基于词性标记的领域新词提取方法、系统及设备,涉及自然语言处理领域,该方法包括:对待处理文本进行分词处理,得到多个分词;利用词性标注模型对每个所述分词进行标记,得到词性标记;基于所述词性标记,采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语;利用预训练的语言模型,根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序;对排序后的候选短语进行过滤提取领域新词。本发明能够快速准确的提取领域新词。

    基于PDF文档碎片化的行业动态交互式报告生成方法及系统

    公开(公告)号:CN111368515B

    公开(公告)日:2021-01-26

    申请号:CN202010137555.6

    申请日:2020-03-02

    摘要: 本发明公开了一种基于PDF文档碎片化的动态交互式报告生成方法,它包括如下步骤:建立行业动态交互式报告的目录结构,并用于报告的导航;遴选可靠的信息资源,采集其元数据及PDF全文文档,整合存储到创建好的数据库中;对PDF全文文档进行碎片化加工,并以XML格式在数据库中进行结构化存储;针对碎片化加工后的细颗粒信息单元,采用基于机器学习的文本自动分类方法行业信息分类体系,对碎片化信息单元进行分类标注,再形成的行业报告目录进行碎片化信息的动态重组,最终形成行业动态交互式报告。其优点是:可实现有针对性的阅读,提升信息输入的效率;能够一键生成定制化报告,进行多维度检索查询,提高查找资料或素材的效率。

    一种可扩展的网络攻击行为分类方法

    公开(公告)号:CN111507385A

    公开(公告)日:2020-08-07

    申请号:CN202010268961.6

    申请日:2020-04-08

    IPC分类号: G06K9/62 G06N3/04 G06N3/08

    摘要: 本发明公开了一种可扩展的网络攻击行为分类方法,包括对网络流量数据进行数据预处理;对网络流量数据的多维特征属性提取新特征表达和最优原特征集;通过分类模型训练获取用于网络行为攻击类别初步判定的模型相关参数;获取网络行为属于已知攻击类别和正常行为的权重值和新攻击类别的权重值综合判定网络行为攻击类别。本发明优化了对网络攻击行为的分类结果,并通过在网络流量数据多维特征属性中提取新特征表达和选择能够最大化表达数据特性的最优原特征集分别优化监督学习模型和非监督学习模型,能够在保证对已知攻击类别判定准确率的基础上有效识别新攻击类别。