一种大尺寸复杂pdf工程图纸文本检测与识别方法

    公开(公告)号:CN115035541B

    公开(公告)日:2025-03-14

    申请号:CN202210735421.3

    申请日:2022-06-27

    Abstract: 本发明提供了一种大尺寸复杂pdf工程图纸文本检测与识别方法,包括以下步骤:步骤S1:预处理pdf工程图纸,生成对应的高分辨率图像;步骤S2:将高分辨率图像切割为若干低分辨率的子图,并根据位置记录子图对应顺序;步骤S3:进行第一次子图文本检测,初步定位子图中的文本区域范围,输出范围对应的位置坐标;步骤S4:将子图中的文本区域位置坐标映射到原大图中,去除其中的重复数据,并根据去重后的位置坐标获取对应文本区域图像;步骤S5:进行第二次文本检测,精确定位文本区域中的文本,并裁剪对应的文本块;步骤S6:对文本块进行文本识别,提取文本块中的文本内容,以及对应的坐标位置。本发明提供的方法提高了复杂图纸的文本识别准确率。

    核电站数据清洗方法及装置
    12.
    发明公开

    公开(公告)号:CN115495444A

    公开(公告)日:2022-12-20

    申请号:CN202210719803.7

    申请日:2022-06-23

    Abstract: 本公开属于核电技术领域,具体涉及一种核电站数据清洗方法及装置。本公开主要依托各业务对象的数据标准,并通过给各生产业务对象属性配置数据清洗规则,以实现在对相关的生产业务对象数据采集时,按配置的规则进行数据清洗。在本公开提供的技术方案中,提供多种多样的数据清洗规则,规则支持自定义拓展,可根据自身业务诉求,进行自定义数据清洗规则拓展,灵活地满足核电厂数据相关人员不同的数据清洗需求。此外,本公开可与生产业务对象数据标准进行交互,保证数据的标准性、准确性、一致性。

    绘图方法及装置
    13.
    发明公开

    公开(公告)号:CN114972582A

    公开(公告)日:2022-08-30

    申请号:CN202210749191.6

    申请日:2022-06-28

    Abstract: 本公开属于核电技术领域,具体涉及一种绘图方法及装置。本公开根据不同业务标准预设的数据实体在绘图上的展示样式,从而使用被选择的标准模板初始化所述绘图多个标准模板,标准模板为根据业务标准预设的数据实体在绘图上的展示样式同时在初始化绘图时,从而内置核电厂对概念数据模型的样式要求,减少人员的绘图学习及使用成本。此外,使用本公开的方法可以图形化方法进行表达,提供可视化编辑界面,可直观的表达核电厂业务数据之间的逻辑关系,方便供核电厂的进一步数字化应用。

    一种基于对数正态分布的核电厂备件需求预测方法

    公开(公告)号:CN116258222A

    公开(公告)日:2023-06-13

    申请号:CN202111463780.X

    申请日:2021-12-03

    Abstract: 本发明属于备件管理技术领域,具体涉及一种基于对数正态分布的核电厂备件需求预测方法。包括如下步骤:步骤1:根据备件寿命数据获取对数正态分布的参数的μ和σ,其中μ为对数正态分布的对数均值,σ为对数正态分布的对数标准差;步骤2:根据对数正态分布获取备件在给定时间区间内的失效次数的期望值;步骤3:根据备件的服务水平来确定备件的库存定额。本发明的有益效果在于:目前,核电厂通过人工根据经验来确定备件的库存定额,主观性强,定额偏保守,通过本发明所提供的方法,可实现寿命分布服从对数正态分布的备件在未来给定时间区间内需求量及其概率的定量计算,减少人工主观判断,降低备件库存。

    一种文档字符串内容识别方法
    15.
    发明公开

    公开(公告)号:CN115982419A

    公开(公告)日:2023-04-18

    申请号:CN202111192690.1

    申请日:2021-10-13

    Abstract: 本发明涉及数据信息处理技术领域,具体公开了一种文档字符串内容识别方法。该方法包括:利用Bi‑LSTM‑CRF方法对字符串的编码规则进行分类,构建特定字符串识别模型;构建Bi‑LSTM‑CRF模型,利用特定场景中特定字符串作为字符串编码规则训练集,获得对字符串编码规则分类模型;将文档中的特定字符串与所述字符串编码规则分类模型进行匹配,获得特定字符串的匹配结果;将所述匹配结果与构建的所述特定字符串识别模型进行匹配识别后,生成编码结果集,并在原文档中标注编码。本方法能够在无先验精确编码规则知识前提下,依然能够有效准确识别特定字符串;相比现有的单纯利用字分布式字符串实体识别系统,基于Bi‑LSTM‑CRF模型的实体识别模型取得更好表现,具有更好的准确性。

    一种文档自动聚类方法
    16.
    发明公开

    公开(公告)号:CN115982344A

    公开(公告)日:2023-04-18

    申请号:CN202111192689.9

    申请日:2021-10-13

    Abstract: 本发明涉及文本数据挖掘技术领域,具体公开了一种文档自动聚类方法。该方法包括:采集待处理的文档,获取所述文档的文本数据,并进行分词和停用词过滤,获得文本集合特征词汇合集;利用TF‑IDF方法构建空间特征模型,对所述文本集合特征词汇合集进行处理,获得文本特征权重向量;利用改进差分进化算法,对所述文本特征权重向量进行选择和提取,并获得最优特征向量;利用最优特征向量进行聚类,并将所有文档聚类于所设定数目的簇中。本发明能够更好的发现文本集合内在的类别特性,用来发现无结构的文本集合中的“潜在概念”信息,这些信息有助于组织和搜索数量庞大的文档集合;此外本发明在文档处理过程中有效的减少人为的因素影响和人力资源的浪费。

    文档内容识别方法及装置
    17.
    发明授权

    公开(公告)号:CN113988011B

    公开(公告)日:2025-04-11

    申请号:CN202110951502.2

    申请日:2021-08-19

    Abstract: 本公开属于核电技术领域,具体涉及一种文档内容识别方法及装置。本公开根据核电厂的编码特性,设计了一种基于正则匹配的预设编码查找的方法。此方法能快速遍历文档文本内容,查找出文档中所有预设编码。本公开设计了一种基于编码库和编码位置系数的相似度匹配方法,通过编码位置系数的计算将预设编码与编码库中编码库进行相似度匹配,能在高召回率的基础上,以高准确率筛选出符合期望的预设编码。解决核电厂不同类型文档中关键编码的高准确率自动识别和提取的问题。

    核电厂电子工作包执行方法及装置

    公开(公告)号:CN114169849B

    公开(公告)日:2024-09-13

    申请号:CN202111389650.6

    申请日:2021-11-22

    Abstract: 本公开属于核电技术领域,具体涉及一种核电厂电子工作包执行方法及装置。本公开的方法包括接收登录账户对应的工单任务的电子工作包信息,所述电子工作包信息用于描述所述工单任务;在所述账户的用户界面中展示所述工单任务的电子工作包信息;在检测到所述用户界面展示的需要被确认的电子工作包信息被执行用于表示确认的触发操作的情况下,在所述用户界面展示用于描述所述工单任务被确认和/或执行的信息。避免了重复性数据登记输入,便于工作人员快速查找所需的参考文件、图纸、视频资料和提出工作指令、质量计划等修改申请,避免工作文件损坏遗失等问题。确保现场工作顺利执行,文件归档不受影响。

    基于正则表达式的文档字符串编码识别方法及装置

    公开(公告)号:CN114168808B

    公开(公告)日:2024-08-09

    申请号:CN202111387759.6

    申请日:2021-11-22

    Abstract: 本公开属于核电技术领域,具体涉及一种基于正则表达式的文档字符串编码识别方法及装置。本公开根据正则表达式确定最佳因子集合;采用CW算法确定出现所述最佳因子集合中的最佳因子的文档记录,并将确定的文档记录添加到候选集合中;根据所述正则表达式确定的DFA自动机对候选集合中的最佳因子的字符串进行验证,将得到成功匹配的字符串。在查询正则表达式的时候定义了一个最佳因子,简化了使用正则表达式来查询的方式。根据最佳因子的个数选择CW算法对提取出来的最佳因子集合快速地查询,有效地过滤掉不包含最佳因子的字符串集合,得到候选字符串,并进一步使用DFA自动机对候选集中的字符串编码进行验证,从而提高整体的查询性能。

Patent Agency Ranking