一种多模态数据融合方法及系统

    公开(公告)号:CN117807559B

    公开(公告)日:2024-07-12

    申请号:CN202410220630.3

    申请日:2024-02-28

    IPC分类号: G06F18/25 G06F18/2431

    摘要: 本发明提供一种多模态数据融合方法及系统,涉及数据处理技术领域。所述方法包括:采集多模态数据,得到多模态数据集S,并上报至后台服务器;所述后台服务器按照粒度条件,适配对应的分类模块对所述多模态数据集S进行数据分类,得到数据集Sa;将所述数据集Sa发送至数据融合模块,所述数据融合模块对所述数据集Sa进行数据融合,得到融合数据;将融合数据导出,并由所述后台服务器发送至当前用户。本发明为用户提供更加细粒的融合数据,有利于按照用户对粒度的要求,进行后续的二次数据加工。

    中文提示词压缩方法及装置

    公开(公告)号:CN117725036B

    公开(公告)日:2024-04-26

    申请号:CN202410172132.6

    申请日:2024-02-07

    发明人: 冯龙宇 屠静 王亚

    摘要: 本发明公开了一种中文提示词压缩方法及装置,应用于人工智能领域。所述方法包括:获取待处理中文提示词,所述待处理中文提示词包括待处理问题以及多个待处理示例;基于待处理示例中的各个文本片段与待处理问题之间的关联度,计算待处理示例的相关性得分;根据相关性得分进行示例删减处理得到中间提示词;基于领域词典和待处理问题,计算中间示例中每个词语的重要性得分;结合重要性得分和相关性得分进行词语删减处理,得到压缩后提示词。基于相关性得分在示例层次进行信息的删减,再基于重要性得分在词语层次进行信息的删减,可在准确删减冗余信息的同时兼顾语义完整性,从而可确保压缩效果的同时兼顾推理的准确性。

    一种多模态数据融合方法及系统

    公开(公告)号:CN117807559A

    公开(公告)日:2024-04-02

    申请号:CN202410220630.3

    申请日:2024-02-28

    IPC分类号: G06F18/25 G06F18/2431

    摘要: 本发明提供一种多模态数据融合方法及系统,涉及数据处理技术领域。所述方法包括:采集多模态数据,得到多模态数据集S,并上报至后台服务器;所述后台服务器按照粒度条件,适配对应的分类模块对所述多模态数据集S进行数据分类,得到数据集Sa;将所述数据集Sa发送至数据融合模块,所述数据融合模块对所述数据集Sa进行数据融合,得到融合数据;将融合数据导出,并由所述后台服务器发送至当前用户。本发明为用户提供更加细粒的融合数据,有利于按照用户对粒度的要求,进行后续的二次数据加工。

    一种大语言模型知识增强方法及系统

    公开(公告)号:CN117474013B

    公开(公告)日:2024-03-22

    申请号:CN202311818163.6

    申请日:2023-12-27

    摘要: 本发明涉及数据处理技术领域,提出了一种大语言模型知识增强方法及系统,包括:获取原始事务库;根据每个频繁1‑项集所在不同事务中事务项的分布确定事务子矩阵;根据不同事务子矩阵内元素分布的相似性确定项集语义相似度;根据每棵FP子树内每条链接路径上节点之间的相似程度确定规则潜在系数;根据每棵FP子树内每条链接路径上节点内项集携带语义信息的相似程度确定文本信息发散指数;根据规则潜在系数、文本信息发散指数获取冗余概率;采用数据挖掘算法基于冗余概率得到情感关联规则;基于情感关联规则实现用于情感分析的大语言模型的知识增强。本发明通过挖掘评价文本中的情感关联规则提高了模型知识的情感分析推理能力。

    基于数字孪生的多源数据融合方法

    公开(公告)号:CN117407744B

    公开(公告)日:2024-03-22

    申请号:CN202311703576.X

    申请日:2023-12-13

    摘要: 本发明涉及多源数据融合计算领域,具体涉及基于数字孪生的多源数据融合方法,该方法包括:获取城市交通系统中各周期各监测点处各维数据的数据序列;采用时间序列分解算法对数据序列进行分解得到数据变化趋势序列;将各维数据记为各目标数据,根据目标数据与各剩余数据的数据变化趋势序列的相关性得到多维趋势相关性;根据目标数据的数据序列及数据变化趋势序列之间的差异分布得到趋势跳变程度;根据趋势跳变程度以及多维趋势相关性得到目标数据的融合参与度;根据各维数据在各监测点的融合参与度、数据序列之间的差异得到任意两个监测点的相似性评价;基于相似性评价优化聚类算法得到各监测点的交通状况。本发明提高了数据融合的精度。

    基于AI大语言模型的上下文构造方法及系统

    公开(公告)号:CN117494717B

    公开(公告)日:2024-03-19

    申请号:CN202311818165.5

    申请日:2023-12-27

    摘要: 本发明涉及自然语言的处理分析技术领域,具体涉及一种基于AI大语言模型的上下文构造方法及系统。本发明首先根据上游任务及下游任务对应训练集间对应文本的主题重合度,获取上游任务与下游任务的任务相关性,进而在上游任务的预训练过程中,根据上游任务的预测准确性及任务相关性获取预训练过程中损失的奖惩参考权重;然后根据奖惩参考权重调整大语言模型,通过不断地迭代调整及预训练,调整模型的学习目标,进而可以将调整后的预训练模型在特殊领域任务中进行微调并保存应用。本发明结合上下游任务的相关性对模型的预训练引入奖惩机制,加强模型与下游任务的联系性,提高大语言模型的上下文构造准确性。

    一种大语言模型驱动的向量数据库检索方法及系统

    公开(公告)号:CN117112852B

    公开(公告)日:2024-02-20

    申请号:CN202311385079.X

    申请日:2023-10-25

    摘要: 本发明提供一种大语言模型驱动的向量数据库检索方法及装置,该方法具体包括:获取待检索的需求数据;检测需求数据是否符合向量数据库所支持的授权素材类型;若是,则将向量数据库中的各个资源数据向量分别与需求数据进行向量相似度计算,以从各个资源数据向量中确定第一目标资源数据向量;若否,则将需求数据输入至数据转换模型,以由数据转换模型生成对应授权素材类型的跨模态需求数据,并将向量数据库中的各个资源数据向量分别与跨模态需求数据进行向量相似度计算,以从各个资源数据向量中确定第二目标资源数据向量;数据转换模型采用大语言模型。由此,实现了向量数据库的跨模态数据检索功能。

    一种大语言模型知识增强方法及系统

    公开(公告)号:CN117474013A

    公开(公告)日:2024-01-30

    申请号:CN202311818163.6

    申请日:2023-12-27

    摘要: 本发明涉及数据处理技术领域,提出了一种大语言模型知识增强方法及系统,包括:获取原始事务库;根据每个频繁1‑项集所在不同事务中事务项的分布确定事务子矩阵;根据不同事务子矩阵内元素分布的相似性确定项集语义相似度;根据每棵FP子树内每条链接路径上节点之间的相似程度确定规则潜在系数;根据每棵FP子树内每条链接路径上节点内项集携带语义信息的相似程度确定文本信息发散指数;根据规则潜在系数、文本信息发散指数获取冗余概率;采用数据挖掘算法基于冗余概率得到情感关联规则;基于情感关联规则实现用于情感分析的大语言模型的知识增强。本发明通过挖掘评价文本中的情感关联规则提高了模型知识的情感分析推理能力。