一种非结构化文本表格识别方法和系统

    公开(公告)号:CN115424282A

    公开(公告)日:2022-12-02

    申请号:CN202211188303.1

    申请日:2022-09-28

    摘要: 本发明提供了一种非结构化文本(包括所有格式的办公文档、文本、图片、各种报表和图像等)表格识别方法,涉及文本识别领域,该方法包括:采集数据集,首先把非结构化文本转化为图像类集合,然后对集合进行图像预处理,把图像集合作为数据集导入模型,对图像数据集的信息进行分析,检测出表格区域,把图像转换成序列,进行表格结构序列预测,检测出表格行结构,进行表格行识别,表格行单元格识别后,识别结果经过后处理,融合表格行结构和单元格文本内容,最终通过文本框和单元格内容进行匹配得到Excel形式的表格识别数据。该方法通过特征学习训练了模型,实现了非结构化文本数据信息的智能提取,有利于非结构化文本数据的进一步分析和实际应用,极大地节省了人力成本提高了工作效率,在一定程度上提高了表格检测速度和准确率,使用本发明所述的方法和系统,可以通过转化进行非结构化文本内容的分析和信息的识别提取,使得非结构化文本在各行各业中具有更好的实用价值和应用。

    一种基于文本生成的数据增强方法、系统及存储介质

    公开(公告)号:CN115392214A

    公开(公告)日:2022-11-25

    申请号:CN202211035627.1

    申请日:2022-08-26

    摘要: 本发明公开了一种基于文本生成的数据增强方法、系统及存储介质,该方法以原始文本数据集为基础,通过自然语言处理技术实现文本生成,得到增强数据集。包括:获取某文本数据集,将文本合集中的文本内容作为文本数据增强的原始数据上传至临时存储区中;获取临时存储区中的文本内容,进行原始文本数据进行数据预处理和分句、分词和词性标注;对分词后的原始语句进行关键词抽取、命名实体识别,根据分词识别结果完成原始语句的分词状态标注;将带有分词状态标注的原始分词语句输入到文本生成模型生成目标增强语句;将原始语句集和目标增强语句集进行汇总,得到增强数据集。本发明有效地缓解了自然语言处理任务中数据量少、有效数据稀疏性等问题。

    基于多场景任务下的少样本工业产品异常检测方法及系统

    公开(公告)号:CN117853491B

    公开(公告)日:2024-05-24

    申请号:CN202410262991.4

    申请日:2024-03-08

    摘要: 本发明属于数字图像处理和计算机视觉领域,提供了基于多场景任务下的少样本工业产品异常检测方法及系统,其技术方案为:将多场景下多种类别的工业产品图像数据集划分为训练集和测试集,所述训练集只包含正常产品图片,将测试集分为支持集和查询集,其中,支持集仅包含正常产品图片,查询集包括各类异常产品图片和对应的正常图片;利用深度对比学习方法构建双孪生网络框架,通过双孪生网络框架构建训练集对应的多场景任务下正常产品的特征分布的目标检测模型;基于训练后的多场景任务下正常产品的特征的目标检测模型建立支持集的特征分布,并通过查询集进行工业产品异常检测得到异常检测结果,可有效地解决实际工业多场景变换下存在的各种问题。

    一种输氢管网监测数据异常检测方法及系统

    公开(公告)号:CN117190078B

    公开(公告)日:2024-02-09

    申请号:CN202311450870.4

    申请日:2023-11-03

    摘要: 本发明公开了一种输氢管网监测数据异常检测方法及系统,涉及氢能源和数据处理技术领域,该方法包括:获取当前设定时间步长的输氢管网监测数据,提取时间变量序列数据和动态变量序列数据;将提取的数据输入至时序预测模型中,通过时间特征嵌入层和动态特征嵌入层,提取时间特征嵌入和动态特征嵌入,并通过时序编码器和动态编码器分别进行编码,将编码后的特征嵌入输入至转码器中进行融合,输出融合后的变量矩阵;最后动态特征嵌入、编码后的时间特征嵌入和变量矩阵均输入至解码器进行解码,输出预测值;将预测值和实际观测值的差值与设定阈值进行比较,实际观测值是否为异常数据。本发明实现了非平稳的输氢管网监测数据的准确异常检测。