一种复杂环境下的自反馈文本分离方法及系统

    公开(公告)号:CN112381089B

    公开(公告)日:2024-06-07

    申请号:CN202011312043.5

    申请日:2020-11-20

    摘要: 本发明公开了一种复杂环境下的自反馈文本分离方法及系统,所述方法包括:检测图像是否存在文本区域,是,则切分出文字区域的最小外接区域;否则输出无待识别文本区域的纯图像结果;将文本区域进行分类,并根据接收到的反馈信息更新文本特征数据;将图像文本进行分离得到白底黑字文本分离结果,并根据接收到的反馈信息更新文本分离算法;对文本分离结果进行评价,并记录造成评估结果不理想的原因;对文本评价效果不好的图像,根据效果差的原因将分类结果进行反馈。本发明达到了各类型图像从输入到输出清晰白底黑字结果的自动化,以及文本分类器和文本分离器的自动反馈更新,在提高了图像识别结果正确性的同时,扩大了文本分离方法的普适性。

    绩效考评方法、装置、设备及可读存储介质

    公开(公告)号:CN117829665A

    公开(公告)日:2024-04-05

    申请号:CN202311869293.2

    申请日:2023-12-29

    IPC分类号: G06Q10/0639 G06F16/9035

    摘要: 本申请涉及教育及数据处理技术领域,提出一种绩效考评方法、装置、设备及可读存储介质,该方法包括:确定获取的科研数据的特征信息,基于特征信息将科研数据存储于基础数据库,向考核端提供考评方案配置页面,响应于配置结果获取考评标准,根据考评标准以及特征信息从基础数据库中筛选目标科研数据并生成待核对考评信息,向相应的申请端提供待核对考评信息,响应于核对结果生成待审核考评信息,向考核端提供待审核考评信息,响应于审核通过结果根据考评标准生成汇总统计提供给考核端。本申请提供的方法,灵活配置考核方案适用于大部分高校或科研院所的绩效考评,并且有效降低了考评过程中考核人员和申请人员的工作量。

    PDF文本的复制优化方法、装置、设备及介质

    公开(公告)号:CN117421143A

    公开(公告)日:2024-01-19

    申请号:CN202311503554.9

    申请日:2023-11-13

    摘要: 本申请涉及文本处理技术领域,提出了一种PDF文本的复制优化方法、装置、设备及介质,其中,方法包括:当接收到针对目标PDF文档中目标文档内容的复制指令时,对所述目标文档内容进行文档特征分析,以确定所述目标文档内容的文档特征;根据所述目标文档内容的文档特征,对所述目标文档内容进行文本段落的切分与合并,得到段落划分后的目标文本;根据接收到的粘贴指令,将所述目标文本按照文件阅读顺序粘贴至对应的目标格式的文档中。通过该技术方案,根据文档特征重新进行文本段落的切分与合并,从而能够更大程度的还原复制文件的原始文档的结构,减少用户手动格式化复制内容的时间消耗,节省用户的时间和精力。

    一种基于政策文件数据的分类方法

    公开(公告)号:CN114817537A

    公开(公告)日:2022-07-29

    申请号:CN202210437428.7

    申请日:2022-04-22

    摘要: 本发明公开了一种基于政策文件数据的分类方法,构建不同分类下政策文件的样本数据,并存储到数据库中;选取在标签库中找到某个标签分类体系的数据,按照模型训练的数据需求将样本数据构建成训练数据集和测试数据集;将分类完成的训练样本语料数据加载到程序中,使用TextRNN+Attention算法对政策文件分类的数据进行训练,根据训练过程中的准确率调整模型参数,最终生成政策文件数据的分类模型;抽取政策文件相关数据,使用分类模型对政策数据进行标注分类操作,获取标注结果,分析模型的准确性和性能,对识别结果进行审核、筛选与修正;对校验后的分类结果,按照模型训练集预料的需求格式进行存储,以进行迭代训练,提升不同分类体系下的分类准确性。

    一种基于Bert+BiLSTM+CRF的知识元自动抽取方法

    公开(公告)号:CN112836501A

    公开(公告)日:2021-05-25

    申请号:CN202110062146.9

    申请日:2021-01-18

    摘要: 本发明公开了一种基于Bert+BiLSTM+CRF的知识元自动抽取方法包括基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取;所述基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取分别包括模型训练阶段和知识元抽取阶段;所述模型训练阶段基于Bert模型特点,通过分析法律文书的主要内容和篇章结构特点进行方法设计,构建基于Bert的篇章段落标引模型Bert‑PMC;以及基于Bert‑PMC,融合双向递归神经网络BiLSTM和条件随机场CRF,构建基于Bert+BiLSTM+CRF的知识元自动抽取模型Bert‑BiLSTM‑CRF;所述知识元抽取阶段依次调用训练好的Bert‑PMC和Bert‑BiLSTM‑CRF进行法律知识元抽取。