一种教学纲要生成方法、装置、存储介质及电子设备

    公开(公告)号:CN112232066A

    公开(公告)日:2021-01-15

    申请号:CN202011111470.7

    申请日:2020-10-16

    发明人: 吕康伦

    摘要: 本申请提供一种教学纲要生成方法、装置、存储介质及电子设备,属于信息处理技术领域,涉及人工智能和机器学习技术。该方法获取待处理的教学视频,根据教学视频的语音数据中的引导语,从教学视频中提取教学点信息,根据提取的教学点信息,生成教学纲要。该方法通过识别教学视频的语音数据中的引导语,从而提取出教学点信息,根据教学点信息生成教学纲要,实现根据线上教育的视频内容自动生成教学纲要,与相关技术的线上教育课件生成教学纲要需要老师人工为每次课程定制纲要相比,可以节省大量时间,提高制定教学纲要的效率。

    一种文档正文识别方法及装置

    公开(公告)号:CN106951401B

    公开(公告)日:2020-03-20

    申请号:CN201710150271.9

    申请日:2017-03-14

    发明人: 徐佳宏 朱吕亮

    IPC分类号: G06F40/137 G06F40/189

    摘要: 本申请公开一种文档正文识别方法和装置,所述方法包括:确定待识别页中的所有元素;遍历所述待识别页中的所有元素,并尝试一一抛弃;确定实际抛弃元素;将所述实际抛弃元素抛弃;计算剩余元素的平均密度;判断所述剩余元素的平均密度是否大于或等于预设平均密度阈值;若是,则将所述剩余元素作为正文区元素;若否,则返回所述遍历所述待识别页中的所有元素,并尝试一一抛弃的步骤。本发明充分利用正文元素之间的距离间距较小,平均密度较大,而非正文元素与正文元素之间的距离较大,使得正文元素和非正文元素的整体平均密度较小的原理,从而通过抛弃非正文元素,得到正文元素,使得正文元素识别准确度较高。

    数据校验方法、装置、计算机设备、存储介质及程序产品

    公开(公告)号:CN118862858A

    公开(公告)日:2024-10-29

    申请号:CN202410790023.0

    申请日:2024-06-19

    摘要: 本申请涉及一种数据校验方法、装置、计算机设备、存储介质及程序产品,应用于项目文件校验系统,所述方法包括:获取目标项目文件,其中,所述目标项目文件包括对应立项配置信息的待校验文本数据;基于边缘检测模型和文本识别模型从所述目标项目文件中提取所述待校验文本数据;根据对应所述立项配置信息的目标校验规则对所述待校验文本数据进行正确性审查;在所述项目文件校验系统的审查节点显示所述目标项目文件正确性审查结果。本申请通过系统自动根据项目文件的立项配置信息调用相应的校验规则对文本数据进行正确性审查,极大的提升了系统校验项目文件的效率,且能够更加灵活的配置校验系统对项目文件的校验规则。

    长文档处理方法、装置、电子设备及介质

    公开(公告)号:CN118798204A

    公开(公告)日:2024-10-18

    申请号:CN202410040429.7

    申请日:2024-01-10

    摘要: 本公开提供一种长文档处理方法、装置、电子设备及介质,涉及长文档处理技术领域,该方法包括:通过对长文档中的多个文本段进行编码,并结合多个文本段在长文档的预设间隔的位置信息,获取多个文本段中每个文本段的序列向量;依次分别将多个文本段中每个文本段的序列向量输入至循环处理单元,以获取每个文本段的深度语义特征;基于每个文本段的深度语义特征,预测长文档的深度语义特征。实现在循环处理单元利用带有位置信息的序列向量对每个文本段进行文本处理时可以更准确、完整地提取文本段的深度语义特征,提高了对长文档的处理能力,从而实现了对长文档的全面理解和分析。

    基于文档标题层级结构的文档内容切分方法、装置及设备

    公开(公告)号:CN118734795A

    公开(公告)日:2024-10-01

    申请号:CN202410815757.X

    申请日:2024-06-24

    摘要: 本发明实施例公开了一种基于文档标题层级结构的文档内容切分方法、装置及设备。该方法包括:获取待切分文档,并识别待切分文档中的文档名称、各层级文档标题、以及文档段落;根据各文档段落在文档中所处的章节位置,确定与各文档段落对应的文档标题集;根据待切分文档的上一切分结果、当前文档段落以及下一文档段落,确定当前文档段落是否满足预设切片条件;若是,则更新当前文档段落以及下一文档段落继续判断;若否,则根据上一切分结果至当前文档段落的上一文档段落之间的段落内容,及对应的文档标题集,生成当前切分结果。该方法切分方式简便、可以保证切分片段的语义完整性,最大程度保留语义信息,有利于快速确定切分结果的语义。

    基于标题增强和意图识别的RAG检索优化方法及系统

    公开(公告)号:CN118467681B

    公开(公告)日:2024-09-24

    申请号:CN202410909730.7

    申请日:2024-07-09

    摘要: 本发明属于检索优化领域,提供了一种基于标题增强和意图识别的RAG检索优化方法及系统,包括提取文档中的高频词汇,将相同场景知识库中的高频词汇结合,构成场景知识库索引;对文档中的标题进行识别,判断标题是否符合标题格式,并对标题分级;按照标题级别切分文档,并进行向量化存储;将提问问题向量化后与场景知识库索引求相似度,确定文档所在场景知识库,进行文档分块的检索返回给大模型生成答案。本发明改善了常规切分方式中忽略了标题与文本间联系的问题,使知识库中存储的信息更加丰富,大模型回答的结果也更加多样;减少了检索所需要的时间,检索到的文本块也更加准确,减小了无关知识对检索结果的影响,使大模型的总结更加准确。

    一种架构图自动布局方法和系统

    公开(公告)号:CN118363572B

    公开(公告)日:2024-08-23

    申请号:CN202410795104.X

    申请日:2024-06-19

    摘要: 本发明属于图像处理技术领域,提供一种架构图自动布局方法、方法和系统,该方法:基于LMM大模型从指定文档中确定待构建框架图的架构关键词、层级关联关系;根据所确定的架构关键词、层级关联关系,进行节点关系格式化保存;基于递归过程,进行全局区域计算、递归区域划分,以构建初始架构图,所述进行全局区域计算包括计算架构图的最大区域、确定各级节点的节点边框的大小和位置及所占的区域;根据约束条件判断各节点以确定是否更新;根据更新后的架构关键词调整初始架构图。本发明实现了可随关键词变化的架构图自适应布局与更新。

    一种架构图自动布局方法和系统

    公开(公告)号:CN118363572A

    公开(公告)日:2024-07-19

    申请号:CN202410795104.X

    申请日:2024-06-19

    摘要: 本发明属于图像处理技术领域,提供一种架构图自动布局方法、方法和系统,该方法:基于LMM大模型从指定文档中确定待构建框架图的架构关键词、层级关联关系;根据所确定的架构关键词、层级关联关系,进行节点关系格式化保存;基于递归过程,进行全局区域计算、递归区域划分,以构建初始架构图,所述进行全局区域计算包括计算架构图的最大区域、确定各级节点的节点边框的大小和位置及所占的区域;根据约束条件判断各节点以确定是否更新;根据更新后的架构关键词调整初始架构图。本发明实现了可随关键词变化的架构图自适应布局与更新。