文档处理方法及装置、存储介质、电子设备

    公开(公告)号:CN114005107B

    公开(公告)日:2024-10-29

    申请号:CN202111295323.4

    申请日:2021-11-03

    摘要: 本公开属于计算机技术领域,涉及一种文档处理方法及装置、存储介质、电子设备。该方法包括:获取预测绘文档,并对预测绘文档进行图像纠正处理得到矫正文档;对矫正文档进行文本识别处理得到文档文本,并对文档文本进行文字纠正处理得到矫正文本;对矫正文本进行规范化处理得到规范文本,并对规范文本进行复合校验处理得到目标文本。本公开大幅度提升了低质量的预测绘文档的识别准确率,提升了文本识别的准确性,更关注于文本内容的准确性以及设计贴合性,提供了自动化且智能化的文本统一方式和多重校验方式,减少了目标文本抽取错误的情况发生,从数据本身和文档所属领域特殊性两方面着重保障文本抽取的准确率,从而提升了业务处理的效率和速度。

    一种多阶段语音与文本容错对齐的方法及装置

    公开(公告)号:CN115062599B

    公开(公告)日:2024-09-06

    申请号:CN202210625881.0

    申请日:2022-06-02

    摘要: 本发明公开了一种多阶段语音与文本容错对齐的方法及装置,包括:将语音转换成文字,形成识别文本的第一阶段;在原始文本与识别文本中,通过寻找最长递增子序列搜索锚点的第二阶段;根据锚点在句子中的位置关系,在识别文本中划分出初步对齐段和未对齐段的第三阶段;对未对齐段重复执行第二、三阶段,直到未对齐段不再发生变化或者没有新的锚点出现为止的第四阶段;针对未对齐段,采用相似度计算函数在识别文本中寻找与原始文本中最相似的字词作为句子边界,对未对齐段进行初步对准的第五阶段;判断初步对齐的句子是精确对准还是错误对准的第六阶段。本发明的文语对齐方法可以有效解决连续、非完全匹配的长语音与文本的句子级的对准问题。

    一种视频搜索无结果的处理方法、系统、设备及介质

    公开(公告)号:CN117453950B

    公开(公告)日:2024-08-13

    申请号:CN202311508509.2

    申请日:2023-11-13

    发明人: 袁征

    摘要: 本发明公开了一种视频搜索无结果的处理方法、系统、设备及介质.所述方法包括:获取搜索关键词;当所述搜索关键词通过搜索索引库查找返回无结果时,将所述搜索关键词与预先构建的视频描述向量数据库进行匹配处理,得到匹配结果;当所述匹配结果为无匹配资源时,通过大语言模型对所述搜索关键词进行语义扩展处理,得到扩展关键词;将所述扩展关键词与所述视频描述向量数据库进行匹配处理,返回视频资源。本发明实施例通过视频描述向量数据库对搜索关键词进行描述,并结合大语言模型对搜索关键词进行语义扩展,能够无需二次交互即可更大程度返回匹配意图的视频,挽留用户流失,提升用户转化,可广泛应用于计算机应用技术领域。

    基于动态规划的漫画自适应排版方法及装置

    公开(公告)号:CN114757161B

    公开(公告)日:2024-07-26

    申请号:CN202210381842.0

    申请日:2022-04-12

    发明人: 范凌 王喆 梁天明

    摘要: 本发明提供一种基于动态规划的漫画自适应排版方法及装置,通过得到的目标绘制字号和最终绘制的文本列划分,将译文分词列表中的译文分词逐列绘制到所述译文排版区域内。本发明能够通过机器实现漫画横向排版向竖直排版的转换,解决了漫画翻译过程中需要强人工参与的三个过程,即通过机器处理对文本区域对应气泡进行调节绘制、最佳字号的确定与排版逻辑的统一、以及基于动态规划的排版优化,实现漫画翻译的流程统一,规范了排版标准,减少翻译过程中的主观因素影响,减少人工参与,节省人力。

    模型训练、模型应用方法、装置、设备及介质

    公开(公告)号:CN118364290A

    公开(公告)日:2024-07-19

    申请号:CN202410535953.1

    申请日:2024-04-30

    摘要: 本发明公开了一种模型训练、模型应用方法、装置、设备及介质。该方法包括:获取训练数据集中训练样本以及关注领域语料,所述训练样本包括样本文本和真值处理方案;通过待训练模型对所述样本文本进行处理,得到样本处理方案;根据所述关注领域语料,获取与所述样本文本相似的领域相似数据;根据所述领域相似数据和所述样本处理方案,计算领域对齐差异;根据所述领域对齐差异,和所述样本处理方案与所述真值处理方案之间的真值差异,对所述待训练模型的参数进行调整。采用本发明实施例,可以提高在特定领域的处理方案的生成准确性。

    一种文档中文本内容的排版方法及装置

    公开(公告)号:CN112784562B

    公开(公告)日:2024-06-25

    申请号:CN202010005498.6

    申请日:2020-01-03

    发明人: 胡娟 周泽安 刘堃

    IPC分类号: G06F40/186 G06F40/189

    摘要: 本发明实施例提供了一种文档中文本内容的排版方法及装置,涉及计算机软件技术领域,其中,上述方法包括:对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,作为基准逻辑层次结构,文档内容为文档中的文本内容;根据基准逻辑层次结构,在排版模板库存储的排版模板中,查找与文档相匹配的目标排版模板;基于目标排版模板对文档进行排版。应用本发明实施例提供的方案进行文档排版,可以提高文档排版的效率。

    数据处理方法、装置、终端及存储介质

    公开(公告)号:CN110134933B

    公开(公告)日:2024-05-24

    申请号:CN201910418027.5

    申请日:2019-05-16

    发明人: 陈贻东 汪大伟

    IPC分类号: G06F40/189

    摘要: 本发明实施例公开了一种数据处理方法、装置、终端及存储介质,其中方法包括:从排版空间中获取可用排版空间,排版空间包括占用空间及可用排版空间,占用空间包括预占位区域,可用排版空间包括至少一个剩余空间;从可用排版空间中获取第一剩余空间,并从待排版的标签数据集合中获取第一标签数据,第一剩余空间为可用排版空间包括的至少一个剩余空间中的任意一个;将第一标签数据摆放在第一剩余空间中;根据第一标签数据在可用排版空间中的占用位置,对可用排版空间进行去交集处理;对去交集处理后的可用排版空间进行合并处理。采用本发明实施例可以提高标签排版效率。

    基于大语言模型的生成文本长度控制方法及装置

    公开(公告)号:CN117787241A

    公开(公告)日:2024-03-29

    申请号:CN202311824583.5

    申请日:2023-12-27

    摘要: 本申请实施例公开了一种基于大语言模型的生成文本长度控制方法及装置,其中,该方法包括:获取经过标注的第一模型对齐数据;第一模型对齐数据包括多个生成指令以及多个生成指令对应的目标文本;依据第一模型对齐数据中的每个生成指令以及每个生成指令对应的目标文本,构建第二模型对齐数据;第二模型对齐数据包括多个包含有长度控制指令的样本指令以及多个样本指令对应的目标文本;利用第二模型对齐数据,基于概率排序方式进行大语言模型训练,得到目标文本生成模型。本申请通过概率排序方式,有效地提高了经过训练的目标文本生成模型对于生成文本的长度可控性,并显著降低了训练阶段对计算资源的消耗。