表格结构化处理方法、设备、存储介质及装置

    公开(公告)号:CN115577688B

    公开(公告)日:2023-04-28

    申请号:CN202211576176.2

    申请日:2022-12-09

    摘要: 本发明公开了一种表格结构化处理方法、设备、存储介质及装置,该方法包括:对表格信息进行预处理,获得待重组表格;根据预设语言处理模型提取待重组表格的信息,并对信息进行分类;根据预设结构化处理方式对分类后的信息进行重组,获得具有结构化特征的表格。本发明根据预设语言处理模型对待重组表格进行分类并根据预设结构化处理方式对分类后的信息进重组,获得具有结构化特征的表格,从而不需要通过人工对表格进行分析并获取其中的信息,进而减少了成本的消耗。

    文本匹配方法、装置、设备及存储介质

    公开(公告)号:CN115600580B

    公开(公告)日:2023-04-07

    申请号:CN202211504116.X

    申请日:2022-11-29

    摘要: 本发明公开了一种文本匹配方法、装置、设备及存储介质,该方法包括:确定待预测文本中文本词组与目标数值之间的距离序列;基于预设词表将待预测文本转换为标号序列;根据预设语言编码模型对距离序列和标号序列进行编码,获得文本编码信息;根据预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本。本发明通过待预测文本获得距离序列和标号序列,根据预设语言编码模型对距离序列和标号序列进行处理,获得与目标数值匹配的目标文本,从而解决了无法在复杂和冗余的非结构化文本中获取与数值向对应的文本信息。

    一种基于问题答案对的问答系统实现方法

    公开(公告)号:CN109271505B

    公开(公告)日:2021-04-30

    申请号:CN201811338116.0

    申请日:2018-11-12

    IPC分类号: G06F16/332 G06F16/33

    摘要: 本发明一种基于问题答案对的问答系统实现方法包括:问题分析、问题检索、答案选择。用户向问答系统提交自然语言表述的问题之后,问答系统会利用问题向量化、关键词提取、关键词拓展等自然语言处理技术去理解用户的提问意图,然后利用检索引擎的方法在问题答案对数据库中获取与问题相关的候选问题答案对集合,并利用匹配算法和排序算法从这些候选集合中准确地挑选出最佳答案。本发明通过综合不同算法和模型学习得到问题与答案之间的匹配度评分的函数,实现从候选问题答案对中选取出最佳答案的方法,完成了一种基于卷积神经网络、Xgboost特征融合的答案选择方法,为问答系统的答案选择提供了一种更好的方法。

    一种可控长度的文本摘要生成系统及方法

    公开(公告)号:CN110147442A

    公开(公告)日:2019-08-20

    申请号:CN201910298471.8

    申请日:2019-04-15

    IPC分类号: G06F16/34 G06F17/27

    摘要: 本发明是一种可控长度的文本摘要生成系统及方法:1.将用户提交的源文本和长度控制信息经过预处理之后得到可供文本摘要模型处理的输入数据;2.文本摘要系统在深度学习生成式模型的基础上,结合了复制机制、覆盖率机制、长度控制机制对输入的数据进行处理计算,得到生成摘要的内部表示;3.基于步骤2生成的文本内部表示,进一步将其转化为可控长度的摘要结果,系统将结果呈献给用户并进行可视化呈现。本发明在深度学习生成式模型的基础上,添加了复制机制、覆盖率机制、长度控制机制,实现了对长文本的摘要生成,可读性和可控性强,测评结果显示本发明的摘要生成效果相比标准生成式模型有明显的提升。

    短文本采样方法、装置、设备及存储介质

    公开(公告)号:CN118246450A

    公开(公告)日:2024-06-25

    申请号:CN202410280705.7

    申请日:2024-03-12

    摘要: 本发明涉及文本采样技术领域,并公开了一种短文本采样方法、装置、设备及存储介质,该方法包括:对目标短文本集合进行预处理,得到token‑id序列和attention‑mask序列;基于token‑id序列、attention‑mask序列和BERT模型对目标短文本集合进行句向量编码,得到句向量集合;从句向量集合中获取符合采样偏好的初始采样集合及最大行列式值;基于初始采样集合及最大行列式值,使用快速贪心算法对目标短文本集合进行文本采样。本发明引入BERT模型和快速贪心算法对短文本进行句向量编码和行列式点过程运算来进行短文本采样,从而实现节约人力的技术目的,进而能够快速准确且有效地实现短文本采样。

    图像标记去除方法、装置、设备及存储介质

    公开(公告)号:CN117495711B

    公开(公告)日:2024-03-29

    申请号:CN202311843053.5

    申请日:2023-12-29

    摘要: 本发明涉及图像处理技术领域,公开了一种图像标记去除方法、装置、设备及存储介质,该方法包括:将待去除标记图像输入至预设图像标记去除模型,预设图像标记去除模型中设置有粗预测模块和去噪器;通过粗预测模块对待去除标记图像进行粗预测,获得粗糙去标记图像;基于粗糙去标记图像和去噪器生成目标模拟残差图;基于粗糙去标记图像和目标模拟残差图通过通道叠加生成目标无标记图像。本发明通过预设图像标记去除模型中的粗预测模块对待去除标记图像进行粗预测,获得粗预测去标记图像,并基于粗糙去标记图像和目标模拟残差图通过通道叠加生成目标无标记图像,解决了借助软件工具对文档进行去水印和印章的处理过程繁琐且效率低的问题。

    一种针对复杂数据的机器阅读理解方法

    公开(公告)号:CN110134946B

    公开(公告)日:2023-04-18

    申请号:CN201910298452.5

    申请日:2019-04-15

    摘要: 本发明公开一种针对复杂数据的机器阅读理解方法:S1.预处理:对原始数据信息进行分词,然后对语料中的词频进行统计,选取词频较高的词汇组成词汇表,不在词汇表中的词用特殊标记代替;S2.基于卷积神经网络的段落排名模型的建立:该模型用于对文章中的多个段落进行排名,选取排名最高的段落进行答案抽取;S3.基于高斯分布的答案预测方法:对阅读理解任务中的抽取式方法进行改进,将使用分类方法的答案定位转化为基于高斯分布的概率学习方法。本发明针对机器阅读理解任务在复杂数据集下的噪声问题和长答案问题,提出了段落排名模型和高斯分布的答案预测方法,有效地提高了机器阅读理解任务在复杂场景下的实用性。

    一种针对自然场景的文本检测与识别方法及系统

    公开(公告)号:CN111340034A

    公开(公告)日:2020-06-26

    申请号:CN202010209803.3

    申请日:2020-03-23

    摘要: 本发明是一种针对自然场景的文本检测与识别方法及系统,具体是针对复杂背景、大角度、中英文混合、生僻字等问题,提出了一种针对自然场景的文本检测系统及方法、一种针对自然场景的文本识别系统及方法,解决了真实应用场景下文本检测与识别的诸多问题。本发明使用多尺度特征网络解决文本检测中的多尺度和复杂背景问题,使用平衡注意力机制解决文本识别中的生僻字问题。通过以上方式,本发明提出的技术使得文本检测与识别模型能够应用于真实场景,极大提高了实用性。

    一种针对PDF文档表格提取优化方法及系统

    公开(公告)号:CN111340000A

    公开(公告)日:2020-06-26

    申请号:CN202010209797.1

    申请日:2020-03-23

    IPC分类号: G06K9/00 G06N3/04

    摘要: 本发明公开一种针对PDF文档表格提取优化方法及系统,该系统包括:表格检测模块、表格角检测模块、表格角优化模块和表格边界优化。表格检测模块识别和定位表格;表格角检测模块识别和定位表格角;表格角优化模块用于表格角分组和过滤劣质表格角;表格边界优化模块用于融合表格检测和表格角优化结果对表格定位结果进行优化。该方法包括步骤S1、表格检测;步骤S2、表格角点检测;步骤S3、表格角优化包括对表格角点分组和表格角点过滤;步骤S4、表格边界优化。本发明实现了对于PDF文档中表格数据的高质量自动化提取,为自动化信息提取提供了数据支持,从而节约人力物力、提高工作效率。