基于提示优化的日志解析方法、装置、设备和存储介质

    公开(公告)号:CN118427294B

    公开(公告)日:2024-09-27

    申请号:CN202410888371.1

    申请日:2024-07-04

    Abstract: 本发明提供一种基于提示优化的日志解析方法、装置、设备和存储介质,涉及计算机技术领域,其中,基于提示优化的日志解析方法包括:对样本日志数据集进行聚类划分,生成候选示例库;所述聚类划分的依据包括Top‑K频繁令牌和预设特征字符;利用聚类算法从所述候选示例库中筛选出与待输入日志的相似度最高的至少一条日志数据作为演示示例;所述演示示例包括输入示例和输出期望;基于所述演示示例和任务描述文本创建初始提示词;所述任务描述文本包括任务背景和任务要求;利用自然语言梯度对所述初始提示词进行优化生成目标提示词,并基于所述目标提示词对所述待输入日志进行解析,提高了日志解析的性能和泛化能力,降低了日志解析成本。

    一种基于对比学习的Web短文本数据流聚类方法

    公开(公告)号:CN117235550A

    公开(公告)日:2023-12-15

    申请号:CN202311151489.8

    申请日:2023-09-07

    Abstract: 本发明公开了一种基于对比学习的Web短文本数据流聚类方法,包括:1、将数据流划分为有标签和无标签数据块;2、利用Sentence‑Bert对有标签数据块中的短文本进行特征表示,并利用有监督的对比学习损失函数训练编码器,根据有标签数据块的降维特征表示初始化聚类簇集合和相似度阈值;3、利用Sentence‑Bert和编码器对无标签数据块每个短文本进行降维特征表示,计算每个短文本与聚类簇的余弦相似度,与相似度阈值比较确定每个短文本的聚类簇归属,并为当前短文本打上伪标签,最后利用无标签数据的特征表示及其伪标签信息动态更新聚类簇集合以及编码器。本发明能提高Web领域短文本数据流的聚类准确性。

    基于word2vec模型的短文本数据流的快速增量式分类方法

    公开(公告)号:CN109918667B

    公开(公告)日:2023-03-24

    申请号:CN201910169255.3

    申请日:2019-03-06

    Abstract: 本发明公开了一种基于word2vec模型的分布式短文本数据流快速增量分类方法,其步骤包括:1从知识库中获取外部语料库构建woord2vec模型,并获取词向量集合Vec;2构建动态线性LR分类器组与全局类标签集合;3增量式更新全局标签集合,修改并增加分类器组;4预测样本,获取未在词集合Vocab中的新词样本集合,构建词向量模型与词向量扩展集合;5获取测试数据流的类标签强度。本发明能够提高短文本数据流的分类准确率,减少模型构建的时间消耗,从而达到快速适应短文本数据流分类的目的。

    一种司法判决书案情信息结构化处理系统

    公开(公告)号:CN109344187B

    公开(公告)日:2021-11-12

    申请号:CN201810989323.6

    申请日:2018-08-28

    Abstract: 本发明公开了一种司法判决书案情信息结构化处理系统,适用于信息抽取和自然语言处理领域;系统包括以下模块:司法判决书案情信息结构化表示模块、建立司法判决书案情信息序列标注模型模块、属性触发词管理模块和生成结构化司法判决书案情信息模块。根据用户给定的案件类型,建立司法判决书案情信息结构化数据表示框架,构建司法判决书案情信息序列标注训练集并训练序列标注模型,结合属性触发词集合,根据生成结构化司法判决书案情信息方法生成结构化的司法判决书案情信息。本发明根据用户提供的司法判决书案件类型和案情信息,实现司法判决书案情信息的结构化处理,其目的在于提供一种从无结构化司法判决书文本中抽取结构化信息的有效方式。

    基于在线序列核极限学习机的高维多标签数据流分类方法

    公开(公告)号:CN112579741A

    公开(公告)日:2021-03-30

    申请号:CN202011551193.1

    申请日:2020-12-24

    Abstract: 本发明公开一种基于在线序列核极限学习机的多标签文本数据流分类方法,包括:1.根据外部语料库构建BoW模型和滑动窗口机制将多标签文本数据流划分为数据块后向量化;2.利用k‑1时刻的集成分类器模型对k时刻的文本数据块Dk进行预测,输出预测结果;3.对文本数据块Dk的文本特征集合进行特征选择,得到降维后的文本特征集合Mk;4.根据k时刻文本数据块Dk和k‑1时刻文本数据块Dk‑1的类标签空间之间的余弦相似度和降维后的特征集合之间的分布差异,判断是否发生概念漂移或特征漂移;5.根据漂移检测情况,利用文本数据块Dk中的所有文本构建在线序列核极限学习机,并更新至k时刻的集成分类器模型。本发明解决了带有特征漂移和概念漂移的多标签文本数据流分类问题。

    一种基于数据融合的人体动作预判方法

    公开(公告)号:CN110210454B

    公开(公告)日:2020-12-29

    申请号:CN201910522350.7

    申请日:2019-06-17

    Abstract: 本发明公开了一种基于数据融合的人体动作预判方法,包括:1、将人体动作序列数据的特征数据截断为多段人体动作序列数据;2、选择一种人体动作概率分类器,在每个截断的训练样本上分别对每维人体关键部位的数据进行训练,并得到概率分类结果;3、将每个截断的训练样本上的概率分类结果进行数据融合;4、通过最小化目标函数确定人体动作预判规则中的参数;5、利用训练好的模型对人体动作测试数据进行预判。本发明通过数据融合方法综合考虑人体各关键部位数据间的相互关系,并构建有效的人体动作预判规则,能够在保证人体动作分类准确率的条件下进行动作预判。

    一种基于深度稀疏自编码机的迁移学习方法

    公开(公告)号:CN107798349B

    公开(公告)日:2020-07-14

    申请号:CN201711069171.X

    申请日:2017-11-03

    Abstract: 本发明公开了一种基于深度稀疏自编码机的迁移学习方法,包括:(1)数据集向量化的前期预处理。(2)模型设计和实现。(3)应用Stacked RICA算法得到的提取特征做半监督学习。(4)特征提取完后,用logistic回归分析模型(LR)在训练集上训练分类器。(5)用训练集上的分类器在测试集上做分类预测。(6)完成在测试集上的分类,得到最终的迁移学习结果。本发明提高了特征提取的效果,提升了迁移学习的精度,具有较高的鲁棒性和实用性。

    一种基于短文本扩展和概念漂移检测的短文本数据流分类方法

    公开(公告)号:CN107679228B

    公开(公告)日:2019-09-10

    申请号:CN201710994366.9

    申请日:2017-10-23

    Abstract: 本发明公开了一种基于主题模型和概念漂移检测的短文本数据流分类方法,包括:1从知识库中获取外部语料库构建LDA主题模型;2根据滑动窗口机制将短文本数据流划分成数据块,并用LDA主题模型扩展数据块中的短文本得到扩展后的数据流;3在扩展后的短文本数据流中对每个数据块构建online BTM主题模型,并获得每个短文本的主题表示;4选择Q个主题表示的数据块构建一个分类器,用于预测新到来数据块的类标签;5根据类标签分布将Q个主题表示的数据块划分成类别簇,计算类别簇与新到来数据块的语义距离以判断是否发生概念漂移;6根据概念漂移情况,更新分类器。本发明可用于类标签分布不断变化的短文本数据流分类问题。

    基于双重自动编码器的半监督跨领域文本分类方法

    公开(公告)号:CN110119448A

    公开(公告)日:2019-08-13

    申请号:CN201910378359.5

    申请日:2019-05-08

    Abstract: 本发明公开了一种基于双重自动编码器的半监督跨领域文本分类方法,其步骤包括:采用双重自动编码器同时获取源领域文本数据集合和目标领域文本数据集合之间的全局和局部特征表示用于跨领域文本分类任务;第一重自动编码器为基于自适应分布的边缘降噪自动编码器,它主要用来学习源领域和目标领域文本数据集合的全局特征表示;第二重自动编码器为基于多类别的边缘降噪自动编码器,它以更细粒度方式学习源领域和目标领域文本数据集合的局部特征表示。本发明能更好地挖掘源领域文本数据集合和目标领域文本数据集合中特征之间的潜在关系,从而进一步提高文本分类的正确性。

    一种基于时间序列的机械故障早期诊断方法

    公开(公告)号:CN110097134A

    公开(公告)日:2019-08-06

    申请号:CN201910383794.7

    申请日:2019-05-08

    Abstract: 本发明公开了一种基于时间序列的机械故障早期诊断方法,包括:1、将机械故障监测序列数据的特征数据按照长度r截断为s个机械故障序列数据;2、选择一种机械故障分类器,在每个截断的训练样本上训练并给出所有机械故障特征数据的机械故障分类结果;3、统计每个截断的训练样本上的每一类的机械故障分类准确率,并计算机械故障分类结果的信任度;4、确定机械故障分类结果的信任度阈值θ;5、利用选择的机械故障分类器和信任度阈值θ对机械故障测试数据进行早期诊断。本发明既适用于等长的机械故障序列数据,又适用于不等长机械故障序列数据的故障诊断,而且在保证机械故障诊断准确率的条件下,能够预判机械故障类型。

Patent Agency Ranking