-
公开(公告)号:CN117540750B
公开(公告)日:2024-03-22
申请号:CN202311789691.3
申请日:2023-12-25
申请人: 卓世科技(海南)有限公司
IPC分类号: G06F40/30 , G06F40/295 , G06Q30/01 , G06F16/332 , G06F16/33 , G06F16/35 , G06F16/36
摘要: 本发明涉及数字数据处理技术领域,提出了基于知识图谱的智能客服语义分析方法,包括:获取半结构化数据、非结构化数据构建知识数据库;基于不同实体所在文本数据中表达语义的可替换程度确定任意语义替换距离;基于语义替换距离得到所有实体的聚类结果;根据每个聚类簇对应同类句法依存树中节点之间句法距离的差异程度确定位置优化因子;根据位置优化因子以及节点的深度信息确定依存权重因子;基于依存权重因子、词向量以及实体识别结果获取知识数据库中的关系抽取结果;基于关系抽取结果确定客户输入文本的意图识别结果;基于意图识别结果生成回复文本由智能客服发送至客户。本发明通过优化句法依存树提高知识数据库中关系抽取结果的准确率。
-
公开(公告)号:CN117573811B
公开(公告)日:2024-03-19
申请号:CN202410057152.9
申请日:2024-01-16
申请人: 卓世科技(海南)有限公司
IPC分类号: G06F16/33 , G06F40/216 , G06F40/289 , G06F40/30 , G06N3/0455 , G06N3/096 , G06F16/35
摘要: 本发明涉及数据处理技术领域,提出了基于深度迁移学习的大语言模型数据挖掘方法,包括:获取文本数据集;利用主题模型获取每个主题下的主题特征词;利用深度优先搜索算法基于包含每个主题特征词对应节点的无向图确定文本无向路径;基于文本无向路径确定主题含义关联系数;基于主题含义关联系数以及主题特征词出现的频率确定主题含义凸显度;基于每个主题下所有主题特征词的主题含义凸显度的分布特征以及不同主题之间的语义差异确定主题过滤指数;基于主题过滤指数得到文本集合中的增强主题;将源域模型中的权重参数迁移到所述增强主题训练的文本分类模型中得到数据挖掘结果。本发明通过主题增强的方式提高文本数据分类的准确率。
-
公开(公告)号:CN117540750A
公开(公告)日:2024-02-09
申请号:CN202311789691.3
申请日:2023-12-25
申请人: 卓世科技(海南)有限公司
IPC分类号: G06F40/30 , G06F40/295 , G06Q30/01 , G06F16/332 , G06F16/33 , G06F16/35 , G06F16/36
摘要: 本发明涉及数字数据处理技术领域,提出了基于知识图谱的智能客服语义分析方法,包括:获取半结构化数据、非结构化数据构建知识数据库;基于不同实体所在文本数据中表达语义的可替换程度确定任意语义替换距离;基于语义替换距离得到所有实体的聚类结果;根据每个聚类簇对应同类句法依存树中节点之间句法距离的差异程度确定位置优化因子;根据位置优化因子以及节点的深度信息确定依存权重因子;基于依存权重因子、词向量以及实体识别结果获取知识数据库中的关系抽取结果;基于关系抽取结果确定客户输入文本的意图识别结果;基于意图识别结果生成回复文本由智能客服发送至客户。本发明通过优化句法依存树提高知识数据库中关系抽取结果的准确率。
-
公开(公告)号:CN117494727A
公开(公告)日:2024-02-02
申请号:CN202311854611.8
申请日:2023-12-29
申请人: 卓世科技(海南)有限公司
IPC分类号: G06F40/30 , G06F40/216 , G06F40/284 , G06N3/045 , G06F16/33
摘要: 本发明涉及文本处理技术领域,具体涉及用于大语言模型的去偏倚方法。该方法包括:获取数据集;将数据集分为若干句子,每个句子获取一个词性标注序列;获取句子中每个词的情感得分,根据每个形容词周围的词的编号、情感得分以及词性获取每个形容词的情感强度加权系数;根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数;根据所有形容词的位置加权情感指数获取每个句子的文本偏倚度;根据每个句子的文本偏倚度对大语言模型进行去偏倚。本发明可以更加精确的调整大模型训练时的细节,从而降低大语言模型输出文本的偏倚情况。
-
公开(公告)号:CN117150050B
公开(公告)日:2024-01-26
申请号:CN202311423122.7
申请日:2023-10-31
申请人: 卓世科技(海南)有限公司
IPC分类号: G06F16/36 , G06F40/295 , G06N3/042 , G06N3/09 , G06N5/022 , G06F16/182 , G06F16/35 , G06F18/2411
摘要: 本发明提供一种基于大语言模型的知识图谱构建方法及系统,属于文本处理技术领域。所述方法包括:对知识文本数据进行文本聚类,得到若干不同文本类型的知识文本数据集T;将知识文本数据集T提交至第一HDFS进行分布式文件储存;按照知识文本type的长度,有序从第一HDFS提取知识文本type,并采用预设的大语言模型CoT,对提取的知识文本type进行知识实体识别,获得各个知识实体的关联信息;将各个知识实体的所述关联信息提交至第二HDFS进行分布式文件储存;根据第二HDFS中存储的各个知识实体的所述关联信息,构建各个知识实体之间的图
-
公开(公告)号:CN117422627A
公开(公告)日:2024-01-19
申请号:CN202311733029.6
申请日:2023-12-18
申请人: 卓世科技(海南)有限公司
摘要: 本发明涉及图像处理技术领域,具体涉及基于图像处理的AI仿真教学方法及系统,包括:获取教学视频的逐帧灰度图像,根据多帧灰度图像中同一个位置的像素点的灰度值变化情况获取像素点的运动模糊特征量,结合像素点的梯度方向获取像素点的相关性向量,根据每个分块中所有像素点的相关性向量获取每个分块的动态程度,根据像素点以及其八邻域内其余像素点的相关性向量和所在分块的动态程度得到像素点的运动特征量,根据运动特征量将当前帧灰度图像划分为多个类别,对每个类别的图像分别进行盲去卷积,得到当前帧去模糊灰度图像。本发明消除了教学视频中教师动作变化带来的运动模糊对教学视频清晰度的影响,提高了教学质量。
-
公开(公告)号:CN117635785B
公开(公告)日:2024-05-28
申请号:CN202410095801.4
申请日:2024-01-24
申请人: 卓世科技(海南)有限公司
IPC分类号: G06T13/40 , G06T13/20 , G06F16/338 , G06F16/33 , G06F16/35 , G06F40/211 , G06F40/30 , G06F18/25 , G06N5/022 , G06N5/04 , G06N3/006 , G06N3/0455 , G06N3/042 , G06N3/0442 , G16H80/00 , G16H70/00 , G10L13/027 , G10L13/033 , G10L13/08 , G10L25/30
摘要: 本发明提供一种护工数字人生成方法及系统,涉及数据处理技术领域,方法包括:获取护工专业知识和老年人兴趣知识,构建知识库;构建应答模型,利用知识库训练应答模型;收集训练后的应答模型的输出结果,结合图神经网络和句法树对输出结果进行情绪分类,得到多个情绪类型;录制视频样本,从视频样本中提取视频帧和音频流;接收护理对象的语音请求,将语音请求提取为文字请求,并将文字请求输入至应答模型,通过应答模型得到目标输出结果;解析目标情绪类型;构建双模编解码网络,将相应视频帧和音频流进行融合,得到具有音频特征和视频特征的护工数字人;通过护工数字人对目标输出结果进行播报。提升护工数字人的逼真程度和护理对象的对话体验。
-
公开(公告)号:CN117520485B
公开(公告)日:2024-03-29
申请号:CN202410022166.7
申请日:2024-01-08
申请人: 卓世科技(海南)有限公司
摘要: 本发明涉及数据处理技术领域,具体涉及基于知识图谱集成的大语言模型向量检索方法,包括:采集文本数据集构建知识图谱,获取实体集合中每个实体的名词序列和编号序列,从而得到每个实体的属性特征值,以此将所有实体划分的若干个聚类簇,根据所有聚类簇中所有实体的属性特征值之间的差异,得到TransE模型的修正损失函数,从而得到三元组集合中的每个三元组的向量表示,由此获取用户查询时的查询结果。本发明通过分析实体集合中实体之间的相似性,对TransE模型的损失函数进行修正,获取准确的向量表示结果,从而提高了用户查询时的检索准确性。
-
公开(公告)号:CN117494727B
公开(公告)日:2024-03-29
申请号:CN202311854611.8
申请日:2023-12-29
申请人: 卓世科技(海南)有限公司
IPC分类号: G06F40/30 , G06F40/216 , G06F40/284 , G06N3/045 , G06F16/33
摘要: 本发明涉及文本处理技术领域,具体涉及用于大语言模型的去偏倚方法。该方法包括:获取数据集;将数据集分为若干句子,每个句子获取一个词性标注序列;获取句子中每个词的情感得分,根据每个形容词周围的词的编号、情感得分以及词性获取每个形容词的情感强度加权系数;根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数;根据所有形容词的位置加权情感指数获取每个句子的文本偏倚度;根据每个句子的文本偏倚度对大语言模型进行去偏倚。本发明可以更加精确的调整大模型训练时的细节,从而降低大语言模型输出文本的偏倚情况。
-
公开(公告)号:CN117520786A
公开(公告)日:2024-02-06
申请号:CN202410006873.7
申请日:2024-01-03
申请人: 卓世科技(海南)有限公司
IPC分类号: G06F18/20 , G06F40/216 , G06F40/289 , G06N3/044 , G06F18/22
摘要: 本发明涉及数字数据处理技术领域,提出了基于NLP和循环神经网络的大语言模型构建方法,包括:根据分词结果确定标准数据集中每个字的标签;根据每个字与专业字典中每个词语的词向量之间的相似度确定字意匹配度;根据文本序列内的分词结果在专业字典中出现的频率确定上下文语境匹配得分;根据词语的重要性以及上下文语境匹配得分确定词性特征得分;根据词性特征得分、字意匹配度确定状态特征函数与转移特征函数;采用条件随机场基于状态特征函数与转移特征函数获取标准数据集的标注结果;基于标注结果构建基于循环神经网络的大语言模型。本发明利用改进后的条件随机场对标准数据集进行标注,提高了大语言模型捕捉输入数据中颗粒信息的能力。
-
-
-
-
-
-
-
-
-