一种数据挖掘的方法和设备
    1.
    发明公开

    公开(公告)号:CN118296056A

    公开(公告)日:2024-07-05

    申请号:CN202211701363.9

    申请日:2022-12-28

    IPC分类号: G06F16/2458 G06F21/57

    摘要: 本申请实施例公开了一种数据挖掘的方法和设备,用于降低技术人员的经验差异带来的威胁建模质量差异。本方法包括:在获取第一数据后,通过分析第一数据,获得第一数据中出现至少两次的频繁图,再从第一数据中查找到与频繁图对应的威胁,并生成指示频繁图与第一威胁之间的对应关系的第一频繁模式,从历史数据中挖掘频繁出现的频繁图,并查找到与之对应的第一威胁,在交互界面提供第一频繁模式的选项,使得技术人员在进行威胁建模时,可以在历史数据带来的“经验”的基础上进行威胁建模,降低了技术人员的经验差异带来的威胁建模质量差异,提升了威胁建模的质量。

    面向服务协同集成的装备数据处理方法与装置

    公开(公告)号:CN114969182A

    公开(公告)日:2022-08-30

    申请号:CN202210547685.6

    申请日:2022-05-18

    IPC分类号: G06F16/25 G06F16/22 G06F16/28

    摘要: 本发明涉及一种面向服务协同集成的装备数据处理方法与装置,其方法包括:从复杂装备中采集工业传感数据,根据应用目标抽取相关数据,得到若干维波形数据;对数据进行相位对齐,从标记点开始进行窗口截取,得到异常波形数据段;计算熵特征,按维抽取最大熵值所在维度数据作为多维波形数据代表;对波形数据代表的统计特征进行提取,根据特征值对数据进行标准化处理;在笛卡尔坐标系下,对处理后的数据代表进行线性变换,计算同一时刻实际波形数据相对标准波形数据的偏移程度,实现波形数据的标准化表示。本发明提供的方法通过对装备数据的高效减量化处理,可以实现复杂装备数据的标准化、可用性及可比性,支撑装备制造维护系统的协同集成。

    一种面向群智的问题及解决方案自动提取方法及相应存储介质与电子装置

    公开(公告)号:CN114398905A

    公开(公告)日:2022-04-26

    申请号:CN202210002150.0

    申请日:2022-01-04

    发明人: 石琳 江子攸 王青

    摘要: 本发明提出一种面向群智的问题及解决方案自动提取方法及相应存储介质与电子装置。该方法基于一种定制增强的自然语言处理深度学习技术。具体来说,该技术包含两个基本任务:1)解耦实时聊天日志的对话,使用数据预处理技术和候选的前馈神经网络自动将时间顺序排列的线性文本分解为独立的对话;2)使用一种新的“问题‑解决方案”预测网络提取问题及解决方案,该网络包含语句编码层、上下文相关的语句编码层和输出层,进而构建语料库中的问题解决方案知识库。本发明不需要构建复杂的规则集进行抽取,能够实现“问题‑解决方案”的全自动化推荐,实验证明了群智模型可以促进知识共享和提升问题解决效率,从而促进基于聊天社区的软件开发。

    一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置

    公开(公告)号:CN111158641A

    公开(公告)日:2020-05-15

    申请号:CN201911408326.7

    申请日:2019-12-31

    发明人: 石琳 李明阳 王青

    摘要: 本发明公开了一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置,包括采集用于提取功能点的需求文本,对所述需求文本进行条目化获取第一匹配数据集,并将所述第一匹配数据集进行中文分词,得到第二匹配数据集;将提取的所述第二匹配数据集的特征送入词分类模型,得到若干功能点词语;将若干所述功能点词语组成的若干功能点短语输入语言模型,得到各功能点短语的输出概率评分值,获取所述需求文本的事务类功能点。本发明无需人工构建字典词库,无需人工配置识别规则,提出了六个维度的16个特征来刻画功能点词语及其上下文的特性,实现了事务点识别的全过程自动化,提高估算的准确性和稳定性。

    一种基于深度学习的一对多需求分析识别方法

    公开(公告)号:CN111158640A

    公开(公告)日:2020-05-15

    申请号:CN201911350243.7

    申请日:2019-12-24

    摘要: 本发明公开了一种基于深度学习的一对多需求分析识别方法。本方法为:1)构建一对多的深度学习神经网络模型并对其进行训练;其中,深度学习神经网络模型包括一个编码器和m个解码器;所述编码器用于计算需求文本的隐藏层状态向量并将其发送给每个解码器;解码器对输入数据依次进行处理生成一隐藏层状态向量;然后根据编码器生成的隐藏层状态向量和解码器生成的隐藏层状态向量生成一全局对齐权重向量,然后将上下文向量和隐藏层状态向量连接后输入Softmax层进行预测并输出一功能项;2)利用深度学习神经网络模型对待处理需求文本进行预测,生成m个功能项;3)合并m个功能项中相似的功能项,获得该待处理需求文本的功能项识别结果。

    一种基于深度学习的一对多需求分析识别方法

    公开(公告)号:CN111158640B

    公开(公告)日:2021-06-01

    申请号:CN201911350243.7

    申请日:2019-12-24

    摘要: 本发明公开了一种基于深度学习的一对多需求分析识别方法。本方法为:1)构建一对多的深度学习神经网络模型并对其进行训练;其中,深度学习神经网络模型包括一个编码器和m个解码器;所述编码器用于计算需求文本的隐藏层状态向量并将其发送给每个解码器;解码器对输入数据依次进行处理生成一隐藏层状态向量;然后根据编码器生成的隐藏层状态向量和解码器生成的隐藏层状态向量生成一全局对齐权重向量,然后将上下文向量和隐藏层状态向量连接后输入Softmax层进行预测并输出一功能项;2)利用深度学习神经网络模型对待处理需求文本进行预测,生成m个功能项;3)合并m个功能项中相似的功能项,获得该待处理需求文本的功能项识别结果。

    一种面向开发者群体聊天的缺陷报告自动监听和合成方法

    公开(公告)号:CN114610888A

    公开(公告)日:2022-06-10

    申请号:CN202210272371.X

    申请日:2022-03-18

    摘要: 本发明公开了一种面向开发者群体聊天的缺陷报告自动监听和合成方法,其步骤包括:1)采集在线聊天数据,对采集的聊天数据进行解耦并对解耦数据进行数据增强,获得数据增强后的对话解耦数据集;2)将所述对话解耦数据集送入对话分类模型,分类出包含软件错误信息的对话和不包含软件错误信息的对话;3)将包含软件错误信息的对话送入软件错误信息抽取模型,得到对话中每个句子的所属类别,根据句子及对应的类别生成软件错误报告。本发明实现了从聊天信息到软件错误报告生成的全过程自动化,能够快速而准确的生成软件错误报告,降低了软件开发过程中获取软件错误报告的成本,拓宽了软件错误报告的获取途径,提高了软件开发和维护效率。

    通过知识学习增强基于分类的软件需求跟踪链接恢复方法及电子装置

    公开(公告)号:CN113011461A

    公开(公告)日:2021-06-22

    申请号:CN202110195758.5

    申请日:2021-02-19

    摘要: 本发明提供一种通过知识学习增强基于分类的软件需求跟踪链接恢复方法及电子装置,包括:将待确定跟踪关系的软件需求和代码文件中包含的文本和结构信息预处理后,构建得到需求‑代码知识图谱和代码依赖图;对需求‑代码知识图谱的结构和文本信息分别建模,学习得到需求和代码实体的向量;对需求‑代码知识图谱中的三元组的关系建模,得到关系特征向量。对代码依赖图进行挖掘,抽取出推理规则用于发现潜在的需求与代码之间的R2C链接,扩展训练数据规模。本发明能够保证在训练数据较少时仍能得到有效的预测模型,既保证R2C链接恢复的准确度,又降低恢复成本,减少人工标注数据的工作量。

    基于语义分析和文本挖掘的事务类功能点自动识别方法

    公开(公告)号:CN111158641B

    公开(公告)日:2021-05-07

    申请号:CN201911408326.7

    申请日:2019-12-31

    发明人: 石琳 李明阳 王青

    摘要: 本发明公开了一种基于语义分析和文本挖掘的事务类功能点自动识别方法,包括采集用于提取功能点的需求文本,对所述需求文本进行条目化获取第一匹配数据集,并将所述第一匹配数据集进行中文分词,得到第二匹配数据集;将提取的所述第二匹配数据集的特征送入词分类模型,得到若干功能点词语;将若干所述功能点词语组成的若干功能点短语输入语言模型,得到各功能点短语的输出概率评分值,获取所述需求文本的事务类功能点。本发明无需人工构建字典词库,无需人工配置识别规则,提出了六个维度的16个特征来刻画功能点词语及其上下文的特性,实现了事务点识别的全过程自动化,提高估算的准确性和稳定性。

    一种自动化数据功能项抽取的方法

    公开(公告)号:CN111797612A

    公开(公告)日:2020-10-20

    申请号:CN202010412410.2

    申请日:2020-05-15

    发明人: 李明阳 石琳 王青

    摘要: 本发明提出一种自动化数据功能项抽取的方法,将需求文本根据标点符号划分为句子,抽取句子中每个单词的上下文特征;给句子中的每一个单词打上标签,作为标注数据;使用标注数据训练初始的CRF模型,迭代地使用该CRF模型预测未标注的数据,从中选取置信度高于置信度阈值的样本来扩充训练集合;使用扩后后的训练集合重新训练CRF模型,最终得到候选功能项集合;使用历史功能项训练面向功能项的语言模型;使用训练好的面向功能项的语言模型对候选功能项集合进行过滤,抽取符合的功能项。本方法从需求描述中进行数据功能项的自动化抽取,提高抽取的精度,代替人力抽取功能项,并降低抽取的成本。