识别技术文件中关键词的方法及系统

    公开(公告)号:CN103646058B

    公开(公告)日:2017-01-25

    申请号:CN201310629883.8

    申请日:2013-11-29

    IPC分类号: G06F17/30

    摘要: 本发明提供一种识别技术文件中关键词的方法,包括:对技术文件中不同长度的词汇进行识别,以生成多个不同长度词汇的哈希表;对每个哈希表进行排序,并提取哈希表中的元素,以生成高频词汇列表;去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。实施上述方法的系统,包括词汇预处理装置、哈希表处理装置与不完整词汇去除装置,词汇预处理装置用于对技术文件中不同长度的词汇进行识别,以生成多个不同长度词汇的哈希表;哈希表处理装置用于对每个哈希表进行排序,并提取哈希表中元素,生成高频词汇列表;不完整词汇去除装置用于去除列表中的不完整词汇,得到关键词汇列表。本发明可辅助审查人员快速获取技术文件中的关键信息。

    一种基于改进的KNN文本分类方法

    公开(公告)号:CN104408095B

    公开(公告)日:2017-12-05

    申请号:CN201410650756.0

    申请日:2014-11-15

    IPC分类号: G06F17/30

    摘要: 本发明提供了一种基于改进的KNN文本分类方法,首先对训练文本进行预处理并计算每个训练样本的特征向量,构建训练集的特征向量空间模型;然后定义密度和距离,将整个样本空间按类型定义为多个球形区和离群点,并存储为训练集库;在进行测试时,首先判断待测文本是否落入某个球形区,根据对应标号判断其类别,否则,离群点和每个球形的中心点作为训练集库,调用KNN算法,判断待测试文本的类别。本发明提供的方法在兼顾分类速度、分类准确度以及对数据倾斜敏感度的同时,能够较好的应用于非球形分布的分类问题,尤其适合具有高维特征向量,分布不规则特征的文本分类问题。

    一种基于改进的KNN文本分类方法

    公开(公告)号:CN104408095A

    公开(公告)日:2015-03-11

    申请号:CN201410650756.0

    申请日:2014-11-15

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30705

    摘要: 本发明提供了一种基于改进的KNN文本分类方法,首先对训练文本进行预处理并计算每个训练样本的特征向量,构建训练集的特征向量空间模型;然后定义密度和距离,将整个样本空间按类型定义为多个球形区和离群点,并存储为训练集库;在进行测试时,首先判断待测文本是否落入某个球形区,根据对应标号判断其类别,否则,离群点和每个球形的中心点作为训练集库,调用KNN算法,判断待测试文本的类别。本发明提供的方法在兼顾分类速度、分类准确度以及对数据倾斜敏感度的同时,能够较好的应用于非球形分布的分类问题,尤其适合具有高维特征向量,分布不规则特征的文本分类问题。

    识别技术文件中关键词的方法及系统

    公开(公告)号:CN103646058A

    公开(公告)日:2014-03-19

    申请号:CN201310629883.8

    申请日:2013-11-29

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30628 G06F17/30705

    摘要: 本发明提供一种识别技术文件中关键词的方法,包括:对技术文件中不同长度的词汇进行识别,以生成多个不同长度词汇的哈希表;对每个哈希表进行排序,并提取哈希表中的元素,以生成高频词汇列表;去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。实施上述方法的系统,包括词汇预处理装置、哈希表处理装置与不完整词汇去除装置,词汇预处理装置用于对技术文件中不同长度的词汇进行识别,以生成多个不同长度词汇的哈希表;哈希表处理装置用于对每个哈希表进行排序,并提取哈希表中元素,生成高频词汇列表;不完整词汇去除装置用于去除列表中的不完整词汇,得到关键词汇列表。本发明可辅助审查人员快速获取技术文件中的关键信息。

    一种多级文档条目追踪矩阵的简化方法

    公开(公告)号:CN109460394B

    公开(公告)日:2020-06-16

    申请号:CN201811384175.1

    申请日:2018-11-20

    IPC分类号: G06F16/185

    摘要: 本发明涉及一种多级文档条目追踪矩阵的简化方法,属于核电软件的V&V领域。该方法包括以下步骤:在所有相邻层级文档间建立两级文档条目追踪矩阵;选取任一层级文档的条目集合,并根据所述两级文档条目追踪矩阵逐级扩展追踪下一层级文档条目,并依次消除同一层级文档的重复条目;根据所述重复条目以及相应的追踪关系的消除建立多极文档条目追踪矩阵。本发明在建立多级文档条目追踪矩阵时,通过在每级追踪关系建立时消除重复条目(点)的方法,从而有效减少追踪元素的数量,避免了追踪元素重复出现而导致的追踪元素爆炸问题,提高追踪效率,同时简化追踪矩阵,使得追踪矩阵更易于查看。

    一种多级文档条目追踪矩阵的简化方法

    公开(公告)号:CN109460394A

    公开(公告)日:2019-03-12

    申请号:CN201811384175.1

    申请日:2018-11-20

    IPC分类号: G06F16/185

    摘要: 本发明涉及一种多级文档条目追踪矩阵的简化方法,属于核电软件的V&V领域。该方法包括以下步骤:在所有相邻层级文档间建立两级文档条目追踪矩阵;选取任一层级文档的条目集合,并根据所述两级文档条目追踪矩阵逐级扩展追踪下一层级文档条目,并依次消除同一层级文档的重复条目;根据所述重复条目以及相应的追踪关系的消除建立多极文档条目追踪矩阵。本发明在建立多级文档条目追踪矩阵时,通过在每级追踪关系建立时消除重复条目(点)的方法,从而有效减少追踪元素的数量,避免了追踪元素重复出现而导致的追踪元素爆炸问题,提高追踪效率,同时简化追踪矩阵,使得追踪矩阵更易于查看。

    一种软件变更影响范围的识别方法及系统

    公开(公告)号:CN111580852A

    公开(公告)日:2020-08-25

    申请号:CN202010357757.1

    申请日:2020-04-29

    IPC分类号: G06F8/70

    摘要: 本发明涉及一种软件变更影响范围的识别方法及系统,属于计算机软件技术领域,解决了现有技术分析软件变更影响范围造成的精度差且效率低的问题。识别方法包括:基于所述软件的基本项识别得到关联因子,其中,所述基本项包括软件的功能项和性能项,所述关联因子表示各基本项之间关联关系的承载内容;根据所述关联因子,获得所述软件的关联矩阵;其中,所述软件的关联矩阵包含所述软件所有基本项间的关联关系;对比变更前后的基本项,获得变更基本项;基于所述变更基本项,在关联矩阵中进行变更影响分析,获得所述软件的变更影响范围。实现了软件变更影响范围的自动化识别,提高了分析结果的精度。

    文件版本的自动化比较方法、装置及相关设备

    公开(公告)号:CN114816507A

    公开(公告)日:2022-07-29

    申请号:CN202210447038.8

    申请日:2022-04-26

    IPC分类号: G06F8/71 G06F16/16

    摘要: 本申请公开了一种文件版本的自动化比较方法、装置及相关设备。其中,该方法包括:获取文件中至少两个版本号,其中,版本号包括第一版本号;根据预设转换规则,将版本号转换为对应的自然数,并获取版本号的自然数;判断顺序在后版本号的自然数与顺序在前版本号的自然数的差值大于零,则确定文件版本顺序正确。该方法通过预设转换规则,将获取的版本号,转化为版本号的自然数,从而可自动化判断文件版本的顺序是否正确,提高了文件的审查效率,降低了文件审查漏查及错查的概率,避免了因人工进行审查导致漏查的情况,且效率较低的问题。

    一种软件变更影响范围的识别方法及系统

    公开(公告)号:CN111580852B

    公开(公告)日:2023-05-23

    申请号:CN202010357757.1

    申请日:2020-04-29

    IPC分类号: G06F8/70

    摘要: 本发明涉及一种软件变更影响范围的识别方法及系统,属于计算机软件技术领域,解决了现有技术分析软件变更影响范围造成的精度差且效率低的问题。识别方法包括:基于所述软件的基本项识别得到关联因子,其中,所述基本项包括软件的功能项和性能项,所述关联因子表示各基本项之间关联关系的承载内容;根据所述关联因子,获得所述软件的关联矩阵;其中,所述软件的关联矩阵包含所述软件所有基本项间的关联关系;对比变更前后的基本项,获得变更基本项;基于所述变更基本项,在关联矩阵中进行变更影响分析,获得所述软件的变更影响范围。实现了软件变更影响范围的自动化识别,提高了分析结果的精度。