一种文档字符串内容识别方法
    11.
    发明公开

    公开(公告)号:CN115982419A

    公开(公告)日:2023-04-18

    申请号:CN202111192690.1

    申请日:2021-10-13

    摘要: 本发明涉及数据信息处理技术领域,具体公开了一种文档字符串内容识别方法。该方法包括:利用Bi‑LSTM‑CRF方法对字符串的编码规则进行分类,构建特定字符串识别模型;构建Bi‑LSTM‑CRF模型,利用特定场景中特定字符串作为字符串编码规则训练集,获得对字符串编码规则分类模型;将文档中的特定字符串与所述字符串编码规则分类模型进行匹配,获得特定字符串的匹配结果;将所述匹配结果与构建的所述特定字符串识别模型进行匹配识别后,生成编码结果集,并在原文档中标注编码。本方法能够在无先验精确编码规则知识前提下,依然能够有效准确识别特定字符串;相比现有的单纯利用字分布式字符串实体识别系统,基于Bi‑LSTM‑CRF模型的实体识别模型取得更好表现,具有更好的准确性。

    一种文档自动聚类方法
    12.
    发明公开

    公开(公告)号:CN115982344A

    公开(公告)日:2023-04-18

    申请号:CN202111192689.9

    申请日:2021-10-13

    摘要: 本发明涉及文本数据挖掘技术领域,具体公开了一种文档自动聚类方法。该方法包括:采集待处理的文档,获取所述文档的文本数据,并进行分词和停用词过滤,获得文本集合特征词汇合集;利用TF‑IDF方法构建空间特征模型,对所述文本集合特征词汇合集进行处理,获得文本特征权重向量;利用改进差分进化算法,对所述文本特征权重向量进行选择和提取,并获得最优特征向量;利用最优特征向量进行聚类,并将所有文档聚类于所设定数目的簇中。本发明能够更好的发现文本集合内在的类别特性,用来发现无结构的文本集合中的“潜在概念”信息,这些信息有助于组织和搜索数量庞大的文档集合;此外本发明在文档处理过程中有效的减少人为的因素影响和人力资源的浪费。

    基于相似度的文档字符串编码匹配方法及装置

    公开(公告)号:CN114168809A

    公开(公告)日:2022-03-11

    申请号:CN202111402289.6

    申请日:2021-11-22

    IPC分类号: G06F16/903 G06F40/126

    摘要: 本公开属于核电技术领域,具体涉及一种基于相似度的文档字符串编码匹配方法及装置。本公开中针对待匹配字符串,根据预设的编码规则生成待匹配字符串对应的正则表达式;针对目标文档,根据编码规则将目标文档的文本内容生成候选字符串集;将候选字符串集中的字符串与正则表达式进行匹配,保留与正则表达式匹配的字符串,滤除与正则表达式不匹配的字符串;采用SimHash算法分别生成保留的字符串以及候选字符串集中每个字符串的SimHash签名,确定保留的字符串的SimHash签名与候选字符串集中每个字符串的SimHash之间的汉明距离,输出汉明距离低于阈值的字符串及该字符串在目标文档中的位置。有效的提高了文档的解析效率,提高了编码模式匹配的速度。

    核电厂群堆管理概念模型
    16.
    发明公开

    公开(公告)号:CN112529356A

    公开(公告)日:2021-03-19

    申请号:CN202011195796.2

    申请日:2020-10-30

    IPC分类号: G06Q10/06 G06Q50/06

    摘要: 本发明属于核电技术领域,具体涉及一种核电厂群堆管理概念模型。本公开提出群堆管理概念模型,每个数据模型可以管理一个种类堆型的核电厂,可以实现通过一个模型管理所有类型的机组,从而解决国内及国外核电公司群堆管理对象不统一、无参考规范的问题。由于各实际运行核电厂能够从数据模型中共享数据,能实现机组间快速变更的需求,通过在一个核电厂进行变更改造试点,可快速将变更改造方案推广到其它核电厂,提高各电厂管理效率;能实现在某电厂发生设备故障时,及时通知相同设备类型的其它电厂,第一时间督促其它电厂检查设备问题,减少同类设备的问题发生的概率,提高电厂安全生产水平。

    一种核电厂厂房火灾风险评估方法

    公开(公告)号:CN114548623B

    公开(公告)日:2024-08-09

    申请号:CN202011330468.9

    申请日:2020-11-24

    摘要: 本发明属于核电厂运行维护技术领域,针对目前核电厂火灾风险评估受到人因影响的技术问题,提供了一种核电厂厂房火灾风险评估方法。技术方案:通过读取电厂防火分区基本信息、消防类许可证中相关信息以及工单中消防系统/设备缺陷等信息,通过对影响火灾风险的各因素进行整合,经过一定权重分析,通过计算得出对应不同风险等级的量化分数,并且将量化的分数通过不同颜色对厂房风险进行标识。有益效果:提供较为准确的火灾风险信息和可量化的评估结果,减少人员经验评估差异性,提高火灾风险评估标准。

    基于相似度的文档字符串编码匹配方法及装置

    公开(公告)号:CN114168809B

    公开(公告)日:2024-08-09

    申请号:CN202111402289.6

    申请日:2021-11-22

    IPC分类号: G06F16/903 G06F40/126

    摘要: 本公开属于核电技术领域,具体涉及一种基于相似度的文档字符串编码匹配方法及装置。本公开中针对待匹配字符串,根据预设的编码规则生成待匹配字符串对应的正则表达式;针对目标文档,根据编码规则将目标文档的文本内容生成候选字符串集;将候选字符串集中的字符串与正则表达式进行匹配,保留与正则表达式匹配的字符串,滤除与正则表达式不匹配的字符串;采用SimHash算法分别生成保留的字符串以及候选字符串集中每个字符串的SimHash签名,确定保留的字符串的SimHash签名与候选字符串集中每个字符串的SimHash之间的汉明距离,输出汉明距离低于阈值的字符串及该字符串在目标文档中的位置。有效的提高了文档的解析效率,提高了编码模式匹配的速度。