-
公开(公告)号:CN112232066A
公开(公告)日:2021-01-15
申请号:CN202011111470.7
申请日:2020-10-16
申请人: 腾讯科技(北京)有限公司
发明人: 吕康伦
IPC分类号: G06F40/253 , G06F40/137 , G10L15/26 , G06F16/738
摘要: 本申请提供一种教学纲要生成方法、装置、存储介质及电子设备,属于信息处理技术领域,涉及人工智能和机器学习技术。该方法获取待处理的教学视频,根据教学视频的语音数据中的引导语,从教学视频中提取教学点信息,根据提取的教学点信息,生成教学纲要。该方法通过识别教学视频的语音数据中的引导语,从而提取出教学点信息,根据教学点信息生成教学纲要,实现根据线上教育的视频内容自动生成教学纲要,与相关技术的线上教育课件生成教学纲要需要老师人工为每次课程定制纲要相比,可以节省大量时间,提高制定教学纲要的效率。
-
公开(公告)号:CN106951401B
公开(公告)日:2020-03-20
申请号:CN201710150271.9
申请日:2017-03-14
申请人: 深圳市茁壮网络股份有限公司
IPC分类号: G06F40/137 , G06F40/189
摘要: 本申请公开一种文档正文识别方法和装置,所述方法包括:确定待识别页中的所有元素;遍历所述待识别页中的所有元素,并尝试一一抛弃;确定实际抛弃元素;将所述实际抛弃元素抛弃;计算剩余元素的平均密度;判断所述剩余元素的平均密度是否大于或等于预设平均密度阈值;若是,则将所述剩余元素作为正文区元素;若否,则返回所述遍历所述待识别页中的所有元素,并尝试一一抛弃的步骤。本发明充分利用正文元素之间的距离间距较小,平均密度较大,而非正文元素与正文元素之间的距离较大,使得正文元素和非正文元素的整体平均密度较小的原理,从而通过抛弃非正文元素,得到正文元素,使得正文元素识别准确度较高。
-
公开(公告)号:CN118898244A
公开(公告)日:2024-11-05
申请号:CN202410856726.9
申请日:2024-06-28
申请人: 中国电力科学研究院有限公司
发明人: 肖梁乐 , 袁田 , 吴永康 , 黄华 , 郭浩洲 , 汤霖 , 胡蓓 , 郭子君 , 郭建良 , 卫卓 , 贾鹏飞 , 朱家运 , 唐鹏 , 蔡勇 , 伍罡 , 孙敏 , 刘晓军 , 蒋波 , 王顺
IPC分类号: G06F40/194 , G06F40/137 , G06F40/151 , G06F40/205 , G06F40/295 , G06F40/30
摘要: 本发明公开了一种基于命名实体识别算法的检测报告分级比对系统及方法,属于技术领域。本发明系统,包括:报告解析单元,用于解析原始的检测报告文本,并对解析的原始的校测报告文本进行结构化处理,得到结构化文本;文本预处理单元,用于对所述结构化文本进行预处理和清洗,得到目标文本;分级比对处理单元,用于对所述目标文本进行分级对比,并生成所述目标文本的分级比对检测报告。本发明采用语义识别的方式,将检测报告进行分级比对,有效的解决了当文档目录结构或分级顺序发生变化时,无法正常的文档比对的问题。
-
公开(公告)号:CN118862858A
公开(公告)日:2024-10-29
申请号:CN202410790023.0
申请日:2024-06-19
申请人: 广东电网有限责任公司佛山供电局
IPC分类号: G06F40/194 , G06F40/226 , G06F40/137 , G06F16/11 , G06V30/41
摘要: 本申请涉及一种数据校验方法、装置、计算机设备、存储介质及程序产品,应用于项目文件校验系统,所述方法包括:获取目标项目文件,其中,所述目标项目文件包括对应立项配置信息的待校验文本数据;基于边缘检测模型和文本识别模型从所述目标项目文件中提取所述待校验文本数据;根据对应所述立项配置信息的目标校验规则对所述待校验文本数据进行正确性审查;在所述项目文件校验系统的审查节点显示所述目标项目文件正确性审查结果。本申请通过系统自动根据项目文件的立项配置信息调用相应的校验规则对文本数据进行正确性审查,极大的提升了系统校验项目文件的效率,且能够更加灵活的配置校验系统对项目文件的校验规则。
-
公开(公告)号:CN118798204A
公开(公告)日:2024-10-18
申请号:CN202410040429.7
申请日:2024-01-10
申请人: 中国移动通信集团天津有限公司 , 中国移动通信集团有限公司
IPC分类号: G06F40/30 , G06F40/137 , G06N3/0455 , G06N3/044
摘要: 本公开提供一种长文档处理方法、装置、电子设备及介质,涉及长文档处理技术领域,该方法包括:通过对长文档中的多个文本段进行编码,并结合多个文本段在长文档的预设间隔的位置信息,获取多个文本段中每个文本段的序列向量;依次分别将多个文本段中每个文本段的序列向量输入至循环处理单元,以获取每个文本段的深度语义特征;基于每个文本段的深度语义特征,预测长文档的深度语义特征。实现在循环处理单元利用带有位置信息的序列向量对每个文本段进行文本处理时可以更准确、完整地提取文本段的深度语义特征,提高了对长文档的处理能力,从而实现了对长文档的全面理解和分析。
-
公开(公告)号:CN118779462A
公开(公告)日:2024-10-15
申请号:CN202410370254.6
申请日:2024-03-28
申请人: 联想诺谛(北京)智能科技有限公司
IPC分类号: G06F16/36 , G06F16/33 , G06F16/332 , G06F40/114 , G06F40/137 , G06N5/022
摘要: 本申请公开了一种知识库构建方法、数据查询方法及电子设备。知识库构建方法包括:基于大语言模型对文档中的至少一个文档片段进行处理,得到文档片段对应的相关信息;获取基于文档对应的知识体系信息建立的至少一个查询信息;基于相关信息,确定查询信息的反馈信息;基于文档片段、相关信息及查询信息和对应的反馈信息,形成查询知识库。
-
公开(公告)号:CN118734795A
公开(公告)日:2024-10-01
申请号:CN202410815757.X
申请日:2024-06-24
申请人: 达观数据有限公司
IPC分类号: G06F40/137 , G06F40/166 , G06F40/258
摘要: 本发明实施例公开了一种基于文档标题层级结构的文档内容切分方法、装置及设备。该方法包括:获取待切分文档,并识别待切分文档中的文档名称、各层级文档标题、以及文档段落;根据各文档段落在文档中所处的章节位置,确定与各文档段落对应的文档标题集;根据待切分文档的上一切分结果、当前文档段落以及下一文档段落,确定当前文档段落是否满足预设切片条件;若是,则更新当前文档段落以及下一文档段落继续判断;若否,则根据上一切分结果至当前文档段落的上一文档段落之间的段落内容,及对应的文档标题集,生成当前切分结果。该方法切分方式简便、可以保证切分片段的语义完整性,最大程度保留语义信息,有利于快速确定切分结果的语义。
-
公开(公告)号:CN118467681B
公开(公告)日:2024-09-24
申请号:CN202410909730.7
申请日:2024-07-09
申请人: 金现代信息产业股份有限公司
IPC分类号: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/137 , G06F16/31 , G06N5/04
摘要: 本发明属于检索优化领域,提供了一种基于标题增强和意图识别的RAG检索优化方法及系统,包括提取文档中的高频词汇,将相同场景知识库中的高频词汇结合,构成场景知识库索引;对文档中的标题进行识别,判断标题是否符合标题格式,并对标题分级;按照标题级别切分文档,并进行向量化存储;将提问问题向量化后与场景知识库索引求相似度,确定文档所在场景知识库,进行文档分块的检索返回给大模型生成答案。本发明改善了常规切分方式中忽略了标题与文本间联系的问题,使知识库中存储的信息更加丰富,大模型回答的结果也更加多样;减少了检索所需要的时间,检索到的文本块也更加准确,减小了无关知识对检索结果的影响,使大模型的总结更加准确。
-
公开(公告)号:CN118363572B
公开(公告)日:2024-08-23
申请号:CN202410795104.X
申请日:2024-06-19
申请人: 中国电子科技集团公司信息科学研究院
IPC分类号: G06F8/20 , G06F8/10 , G06F40/137 , G06F40/284 , G06N20/00
摘要: 本发明属于图像处理技术领域,提供一种架构图自动布局方法、方法和系统,该方法:基于LMM大模型从指定文档中确定待构建框架图的架构关键词、层级关联关系;根据所确定的架构关键词、层级关联关系,进行节点关系格式化保存;基于递归过程,进行全局区域计算、递归区域划分,以构建初始架构图,所述进行全局区域计算包括计算架构图的最大区域、确定各级节点的节点边框的大小和位置及所占的区域;根据约束条件判断各节点以确定是否更新;根据更新后的架构关键词调整初始架构图。本发明实现了可随关键词变化的架构图自适应布局与更新。
-
公开(公告)号:CN118363572A
公开(公告)日:2024-07-19
申请号:CN202410795104.X
申请日:2024-06-19
申请人: 中国电子科技集团公司信息科学研究院
IPC分类号: G06F8/20 , G06F8/10 , G06F40/137 , G06F40/284 , G06N20/00
摘要: 本发明属于图像处理技术领域,提供一种架构图自动布局方法、方法和系统,该方法:基于LMM大模型从指定文档中确定待构建框架图的架构关键词、层级关联关系;根据所确定的架构关键词、层级关联关系,进行节点关系格式化保存;基于递归过程,进行全局区域计算、递归区域划分,以构建初始架构图,所述进行全局区域计算包括计算架构图的最大区域、确定各级节点的节点边框的大小和位置及所占的区域;根据约束条件判断各节点以确定是否更新;根据更新后的架构关键词调整初始架构图。本发明实现了可随关键词变化的架构图自适应布局与更新。
-
-
-
-
-
-
-
-
-