-
公开(公告)号:CN118866226A
公开(公告)日:2024-10-29
申请号:CN202411028227.7
申请日:2024-07-30
申请人: 北京智谱华章科技有限公司
IPC分类号: G16H15/00 , G16H50/70 , G06N3/08 , G06N3/045 , G06F40/186
摘要: 本发明涉及一种生成医学影像分析报告的方法、装置、设备和介质,属于医学影像分析技术领域,包括:获取待分析的医学影像;将所述待分析的医学影像结合提示词输入多模态大模型;所述多模态大模型包括第一子模型、第二子模型和第三子模型;第一子模型根据提示词生成初始医学影像分析报告;第二子模型提取所述待分析的医学影像中的关键局部要素信息;第三子模型根据所述初始医学影像分析报告和所述关键局部要素信息生成最终医学影像分析报告;其中,所述第一子模型预先经过医学影像分析报告生成微调,所述第二子模型预先经过局部要素描述对齐微调,所述第三子模型预先经过比对和校准微调。本发明降低了模型出现幻觉的可能性。
-
公开(公告)号:CN118797296A
公开(公告)日:2024-10-18
申请号:CN202410833803.9
申请日:2024-06-26
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F18/2113 , G06F18/214 , G06F18/2413
摘要: 本发明涉及一种大模型训练数据过滤方法、装置、设备及介质,属于数据压缩技术领域,解决了现有技术中数据过滤存在计算成本高的问题。本发明技术方案主要包括:S1、获取原始训练数据集,将所述原始训练数据集中的样本转化为嵌入向量;S2、对所有嵌入向量执行k最近邻搜索,以构建原始训练数据集的k最近邻图;S3、自所述k近邻图中选取子集,以所述子集包含的样本作为过滤后的训练数据集,选取子图的方法包括:S31、计算所有未加入子集的节点各自的多样化代表性得分;S32、选取所述多样化代表性得分最高的节点加入所述子集;S33、重复执行步骤S31‑S32,直到所述子集中的节点数量到达预设值。
-
公开(公告)号:CN118797031A
公开(公告)日:2024-10-18
申请号:CN202411082745.7
申请日:2024-08-08
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F16/335 , G06F16/338 , G06N5/04 , G06Q50/20
摘要: 本公开实施例提供一种垂域主观题评分用模型的选择方法和垂域主观题的评分方法。垂域主观题评分用模型的选择方法,包括:构建针对垂域主观题的多个评分提示模板,并基于各个评分提示模板构建模型输入;采用待选择大语言模型处理模型输入,得到针对答案的单角度评分;将同一种评分提示模板对应的单角度评分进行大小排序,并基于排序顺序确定加权权重;按照加权权重分别将待选择大语言模型输出的单角度评分进行加权求和,得到各个待选择大语言模型的多角度评分;选择多角度评分最大或者最小的预设数量待选择大语言模型作为垂域主观题评分用模型。采用本公开实施例方案选择确定的垂域主观题评分用模型作为真实应用模型更为合理。
-
公开(公告)号:CN118230348B
公开(公告)日:2024-08-23
申请号:CN202410349731.0
申请日:2024-03-26
申请人: 北京智谱华章科技有限公司
IPC分类号: G06V30/42 , G06V30/413 , G06V30/19 , G06V30/26 , G06V30/244
摘要: 本发明属于文本处理技术领域,涉及一种含数学公式的输入文本的智能提取方法及系统,所述方法包括:1)输入文本的格式判定、转换和预处理;2)对预处理后的图片格式的文本进行角度矫正;3)进行公式检测;4)进行版面分析;5)对于嵌入公式,根据公式检测框判断矫正后的OCR检测框是否包含嵌入公式并对包含嵌入公式的OCR检测框进行拆分,以获得纯文本的OCR检测框;6)进行公式识别,以获得公式识别结果;7)进行文本识别,以获得文本识别结果;8)结合版面分析框及其版面类别对公式识别结果与文本识别结果进行同行检测框判定和合并,以获得输入文本的提取结果。其能够有效提高含数学公式的输入文本的提取效率和准确性。
-
公开(公告)号:CN118520101A
公开(公告)日:2024-08-20
申请号:CN202410686246.2
申请日:2024-05-30
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F16/335 , G06F16/338 , G06N3/0442
摘要: 本发明涉及一种生成论文推荐列表的方法,属于论文推荐技术领域,解决了现有技术中无法深度分析用户需求的问题。包括:提取对话序列中与论文相关的关键词,得到关键词集合;将所述关键词集合转换为嵌入向量;对所述嵌入向量进行特征解耦,得到长期兴趣特征和短期兴趣特征;根据所述嵌入向量、所述长期兴趣特征和所述短期兴趣特征计算融合权重;基于所述融合权重对所述长期兴趣特征和短期兴趣特征进行加权计算,得到最终特征;根据所述最终特征生成论文推荐列表。本发明深度分析了用户的兴趣和实际需求,为用户提供了更高质量的论文推荐列表。
-
公开(公告)号:CN118467840A
公开(公告)日:2024-08-09
申请号:CN202410694813.9
申请日:2024-05-31
申请人: 北京智谱华章科技有限公司
摘要: 本发明属于人工智能技术领域,涉及一种基于知识增强和大模型的推荐智能体系统,其包括:知识图谱构建模块,其用于收集和整合领域相关知识,以形成结构化的知识图谱;元提示学习模块,其用于基于结构化的知识图谱和文本数据,采用元提示学习方法形成一组元提示模板;预训练模块,其用于对大模型进行预训练;微调模块,其用于进行微调;定制化推荐智能体构建模块,其用于形成定制化推荐智能体;实时处理模块,其用于对用户请求进行实时处理并将处理结果输入所述定制化推荐智能体,由定制化推荐智能体生成定制化的推荐结果。其能够更准确地捕捉用户的兴趣和偏好,为用户提供个性化的定制推荐服务,帮助用户发现感兴趣的内容。
-
公开(公告)号:CN118447525A
公开(公告)日:2024-08-06
申请号:CN202410349746.7
申请日:2024-03-26
申请人: 北京智谱华章科技有限公司
IPC分类号: G06V30/42 , G06V30/413 , G06V30/19 , G06V30/26 , G06F40/177 , G06F40/103 , G06F40/163
摘要: 本发明属于文档解析技术领域,涉及一种智能文本提取与结构化处理的文档解析方法及系统,所述方法包括:1)输入文本的判断、转换和预处理;2)对预处理后的图片格式的文本进行角度矫正;3)进行版面分析;4)进行单行文本智能提取,单行文本的智能提取结果包括行文本识别内容和行文本框;5)将行文本框与版面分析框进行比对,获得更新后的行文本框和版面分析框;6)运用递归切割和索引跟踪方法对更新后的版面分析框进行版面排序;7)根据排序后的版面分析框对更新后的行文本框进行归类,依照版面类别进行行文本识别内容的结构化输出,得到最终的文档解析结果。其在处理复杂文档时,可以提供更高的准确度和效率。
-
公开(公告)号:CN114281961B
公开(公告)日:2024-07-26
申请号:CN202111350195.9
申请日:2021-11-15
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F16/332 , G06F16/33 , G06F16/335
摘要: 本发明公开了一种基于生物动力学模型的科技文献兴趣评估方法和装置,其中,该方法包括:根据阅读文献的能力上限以及对文献的兴趣度和兴趣自然变化率,构建对文献的兴趣度随时间变化的生物动力学模型;根据文献信息量模型和用户知识水平,计算确定阅读文献的能力上限;根据定时器跟踪第一预设时间的阅读文献时间,基于第一预设时间的阅读文献时间以确定第二预设时间内的累计阅读文献时间;预设兴趣自然变化率的数值,根据生物动力学模型,计算获得预设时间点的用户兴趣值,以跟踪用户对科技文献的兴趣。本发明能够改进科技文献的个性化推荐结果,并改进关键词的搜索结果。
-
公开(公告)号:CN117828050B
公开(公告)日:2024-07-09
申请号:CN202311849418.5
申请日:2023-12-29
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F16/332 , G06F16/33 , G16H20/90
摘要: 本发明属于中医问答技术领域,涉及一种基于长文档检索增强生成的中医问答方法、设备及介质,所述方法包括以下步骤:1)、问题扩展;2)、文档切分;3)、文档召回;4)、重排序;5)、大语言模型选择;6)、大语言模型生成。其能够提高检索和生成能力,确保检索到的知识与问题的相关性,提取更短、更准确的相关信息,去除与问题无关的噪声输入,帮助大语言模型生成更加准确的答案;同时,在生成的结果中标注参考的文档来源,增强大语言模型的可解释性,由此,能够缓解大语言模型在特定领域,如中医问答领域的幻觉问题和实时数据不足的问题,为中医问答提供更准确、有针对性的答案。
-
公开(公告)号:CN118227967A
公开(公告)日:2024-06-21
申请号:CN202410348394.3
申请日:2024-03-26
申请人: 北京智谱华章科技有限公司
摘要: 本发明属于人工智能技术领域,涉及一种大语言模型内容安全优化方法、系统、设备及存储介质,所述方法包括:1)训练数据敏感检测;2)训练数据自动改写;3)大语言模型内容安全微调;4)大语言模型微调效果反馈;5)改写规则调整;6)输出内容自动改写;7)大语言模型内容安全再微调。其实质性地解决了大语言模型存在的领域泛化,生成内容安全等方面存在的问题,对大语言模型设计提供了新的方法。
-
-
-
-
-
-
-
-
-