文本提取方法及装置

    公开(公告)号:CN118982839A

    公开(公告)日:2024-11-19

    申请号:CN202411103257.X

    申请日:2024-08-12

    发明人: 汪洲

    摘要: 本申请提供文本提取方法及装置,其中所述文本提取方法包括:获取待识别文档,其中,所述待识别文档中包括至少一个文本块;识别所述待识别文档中每个文本块的位置信息;根据每个文本块的位置信息,从所述待识别文档中提取每个文本块对应的目标子文本;根据每个文本块对应的目标子文本和每个文本块的位置信息,获得所述待识别文档对应的目标文本。通过本申请提供的方法,能有效解决在文本提取过程中出现的因特殊格式等原因导致文本行与行之间乱序的问题,更清楚准确的提取文档中的内容。

    一种并发安全的自适应数据导出方法及装置

    公开(公告)号:CN118981333A

    公开(公告)日:2024-11-19

    申请号:CN202410842455.1

    申请日:2024-06-27

    发明人: 闫一帅

    IPC分类号: G06F8/73 G06F8/41 G06F40/103

    摘要: 本发明公开一种并发安全的自适应数据导出方法及装置,其中,该方法包括:定义一个统一的导出策略抽象类;在该类中使用线程本地存储来保存每个线程的写入器、分片和文件名、分片名的状态信息;在该类中定义抽象方法,供子类针对每一种文件格式实现具体的文件后缀名、写入器创建、分片创建、数据写入和写入器关闭逻辑;针对每一种文件格式,其对应子类均继承自统一的导出策略抽象类,并实现该类中定义的抽象方法;样式解析器根据预定义的样式规则,计算出每个单元格应该应用的具体样式属性,为数据写入过程提供样式支持。该方法及装置能够高效、动态地支持新格式,同时具备流式写入、样式支持等增强功能,以满足现代数据处理的高性能需求。

    基于云计算的企业会话数据储存分析方法及系统

    公开(公告)号:CN118278420B

    公开(公告)日:2024-11-12

    申请号:CN202410465975.5

    申请日:2024-04-18

    发明人: 夏京安 吴凯 王鑫

    摘要: 本发明涉及数据处理技术领域,尤其涉及一种基于云计算的企业会话数据储存分析方法及系统。所述方法包括以下步骤:对企业内部通信工具进行会话数据采集处理和弹性储存处理,得到企业会话弹性储存文本信息数据;对企业会话弹性储存文本信息数据进行格式化清洗处理和会话实体识别分析,得到企业会话文本实体信息数据;对企业会话文本实体信息数据进行实体链接抽取处理以及深度语义抽取分析,得到企业会话文本深度语义信息数据;根据企业会话文本深度语义信息数据对企业会话文本信息标准数据进行会话建议分析,以得到企业会话文本内容回复建议数据。本发明能够为企业会话数据的存储和分析提供了数据保障。

    文本分段方法、装置、芯片、电子设备及介质

    公开(公告)号:CN118862867A

    公开(公告)日:2024-10-29

    申请号:CN202410581994.4

    申请日:2023-04-26

    摘要: 本申请实施例提供了一种文本分段方法、装置、芯片、电子设备及介质,该方法包括:在存在对应第一文本的至少一个第二文本待分段的情况下,根据至少一个第二文本和第一文本,获取目标文本特征和目标语音特征;其中,第一文本对应的第一语音为语音段中的任一句语音,至少一个第二文本一一对应于语音段中的在第一语音之前的至少一句语音,且至少一句语音和第一语音在语音段中依次相邻;根据目标文本特征和目标语音特征,确定是否需要在至少一个第二文本和第一文本之间分段,若是则在至少一个第二文本和第一文本之间进行分段。本申请实施例能够对语音转换得到的文本进行分段。

    基于智慧医疗的患者信息管理方法及系统

    公开(公告)号:CN118841121A

    公开(公告)日:2024-10-25

    申请号:CN202411314244.7

    申请日:2024-09-20

    摘要: 本发明公开了基于智慧医疗的患者信息管理方法及系统,本发明涉及智慧医疗技术领域,解决了对患者信息进行实际处理时,会造成对应患者信息格式转换速率较慢的问题,本发明通过确认此患者信息文本需要提供的多个不同服务器端,再基于多个不同服务器端的关联格式,对患者信息的关联文本进行信息转换,且对应分类文本在进行格式转换时,所采用的便就是转换时间最短的方式,故在后期的文本重新还原时,其还原的速度依然处于最快的还原转换方式,便可充分缩减对应的转换时间,来保障对应信息文本的格式转换时间能得到充分缩减。

    一种数字化视觉还原系统与方法
    6.
    发明公开

    公开(公告)号:CN118823802A

    公开(公告)日:2024-10-22

    申请号:CN202310557343.7

    申请日:2023-05-17

    摘要: 本发明公开了一种数字化视觉还原系统与方法,本发明中的视觉还原方法可以完美还原书籍的原有阅读体验,解决了传统OCR识别之后,会失去页面排版效果,影响阅读体验的问题。本发明的视觉还原方法可以应用于各种语言,比如藏文、高棉文等。本发明中经过视觉还原后的文本,可以被复制、编辑、搜索、翻译,还可以被导出成Word、PDF、图像等格式,方便书籍的数字化管理及存储。本发明增加了编辑模块,可在校对的过程中,像word一样对文字字体、文字大小(字号)、文字颜色、书籍背景颜色、文字方向、句子位置(坐标)、页眉与页脚、识别内容等进行可视化编辑修改。

    结构化查询代码语句的生成方法、装置和计算机设备

    公开(公告)号:CN118798127A

    公开(公告)日:2024-10-18

    申请号:CN202410983738.8

    申请日:2024-07-22

    IPC分类号: G06F40/103 G06F16/242

    摘要: 本申请涉及一种结构化查询代码语句的生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:接收数据交互请求;其中,所述数据交互请求包括对目标数据的交互操作对应的文本数据;将所述文本数据输入到预设的大语言模型中,得到所述数据交互请求对应的标准格式文本语句;其中,所述标准格式语句的数据格式包括下述中的至少一种:标识键、与标识键相对应的数据、筛选条件标识以及数据统计标识;利用所述标准格式文本语句,生成所述数据交互请求的结构化查询代码语句。采用本方法能够提高生成的结构化查询代码语句的准确性。

    文档信息的处理方法、装置、设备及存储介质

    公开(公告)号:CN118689838A

    公开(公告)日:2024-09-24

    申请号:CN202410805782.X

    申请日:2024-06-20

    申请人: 江汉大学

    摘要: 本发明实施例提供了一种文档信息的处理方法、装置设备及存储介质。该方法包括:获取目标原始文档,目标原始文档为DOCX格式的文档;将目标原始文档导入数字化环境,以得到目标原始文档所对应的解析数据;对解析数据进行预处理,以得到目标文档数据;确定目标文档数据所对应的文字样式信息以及文字字段信息;将文字样式信息以及所述文字字段信息以JSON格式进行存储,以得到目标原始文档所对应的JSON数据;对JSON数据添加修饰,并根据添加修饰后的所述JSON数据生成目标原始文档所对应的XML文件,同时可以将XML文件还原为原始文档,以此来实现标准文件数据按照规则统一地提取、加工,从而实现智能化地自动、快速、准确的文档提取工作。

    首行缩进方法、装置、设备、介质及产品

    公开(公告)号:CN118626188A

    公开(公告)日:2024-09-10

    申请号:CN202410747547.1

    申请日:2024-06-11

    发明人: 李太友 刘义岭

    IPC分类号: G06F9/451 G06F40/103

    摘要: 本申请提供的一种首行缩进方法、装置、设备、介质及产品,该方法包括:获取待显示数据和待显示数据对应的显示相关信息;基于显示相关信息调用预设首行缩进视图组件确定所述待显示数据对应的缩进类型;根据所述缩进类型确定首行缩进宽度和对应缩进显示数据;根据所述首行缩进宽度以及所述缩进显示数据显示所述待显示数据。本申请的首行缩进方法,通过预设首行缩进视图组件确定待显示数据对应的缩进类型,并基于缩进类型确定首行缩进宽度。从而基于首行缩进宽度将待显示数据进行缩进处理,实现动态首行缩进。