-
公开(公告)号:CN116127970A
公开(公告)日:2023-05-16
申请号:CN202211371492.6
申请日:2022-11-03
申请人: 马上消费金融股份有限公司
IPC分类号: G06F40/295 , G06F40/30 , G06F18/214 , G06F18/24 , G06F18/25 , G06N3/04 , G06N3/08
摘要: 本申请涉及实体识别技术领域,具体涉及一种实体识别模型的训练方法和装置、实体识别方法和装置,解决了无法利用少量的训练样本训练出泛化能力强的实体识别模型的问题。该实体识别模型的训练方法包括:获取第一文本样本、第一文本样本对应的真实实体标签和第一文本样本对应的第一实体标签;将第一文本样本和第一实体标签输入学习模型,得到预测实体标签,学习模型包括用于提取第一实体标签的特征数据的第一子模型、用于提取第一文本样本的特征数据的第二子模型和用于分析第一实体标签的特征数据和第一文本样本的特征数据的相关性的相关性分析子模型;基于预测实体标签和真实实体标签,调整学习模型的模型参数,得到实体识别模型。
-
公开(公告)号:CN116127027A
公开(公告)日:2023-05-16
申请号:CN202211441452.4
申请日:2022-11-17
申请人: 马上消费金融股份有限公司
IPC分类号: G06F16/332 , G06F16/33 , G06F18/2411 , G06N3/04 , G06N3/08 , G06Q30/015
摘要: 本申请公开了一种意图识别方法及装置、意图识别模型的训练方法及装置。该方法包括:根据待识别语音文本获取第一文本特征向量,根据第一文本特征向量获取待识别语音文本的初步意图分类,初步意图分类为预设业务场景的意图分类;根据初步意图分类获取意图确定文本集,根据意图确定文本集获取第二文本特征向量集,意图确定文本集为初步意图分类对应的文本集;确定第一文本特征向量与第二文本特征向量集之间的文本距离结果;基于文本距离结果,确定待识别语音文本的实际意图分类,实际意图分类为初步意图分类或者除预设业务场景以外的其他业务场景的意图分类,能够准确地确定待识别语音文本的实际意图分类,从而提高了意图识别的准确率。
-
公开(公告)号:CN114490786A
公开(公告)日:2022-05-13
申请号:CN202111624648.2
申请日:2021-12-28
申请人: 马上消费金融股份有限公司
IPC分类号: G06F16/2457 , G06F16/28 , G06K9/62 , G06N20/00
摘要: 本申请实施例提供了一种数据排序方法及装置,在各特征维度下的目标特征类别对应的多个线上业务数据中,分别选取第一数量的线上业务数据,再将选取的线上业务数据输入排序模型,得到相应的排序结果,并基于排序结果确定第二数量的待处理的目标业务事件,即在每个特征维度的目标特征类别下选取输入至排序模型的线上业务数据,由于目标特征类别对应的目标精确率满足预设条件,且目标精确率能够表征在第一数量中预测正确的正样本的数量占比,因此在多个特征维度的目标特征类别下选取一定数量的线上业务数据,这样能够确保选取出更多的正样本,从而确保输入至排序模型的第二业务数据集中的正负样本的数量更加均衡,进而提升排序模型的topN精确率。
-
公开(公告)号:CN114462465A
公开(公告)日:2022-05-10
申请号:CN202111166123.9
申请日:2021-09-30
申请人: 马上消费金融股份有限公司
IPC分类号: G06K9/62
摘要: 本发明公开了一种分类模型的训练方法、质检预测方法及对应装置,涉及模型训练技术领域,在样本不平衡情况下优化分类模型的训练方法以及将该分类模型应用到质检预测场景实现有效质检分类。本发明的主要技术方案为:获取样本数据集,样本数据集包括训练集和验证集,样本数据集的负样本数量与正样本数量之间的比值大于预设样本不平衡阈值;利用训练集训练初始分类模型,得到第一分类模型;将验证集输入第一分类模型,输出预测验证集为正样本的预测结果,预测结果中至少包含验证集中原始正样本被预测为正样本所对应的目标概率值;根据目标概率值,从训练集中删除容易负样本,得到新训练集;利用新训练集训练第一分类模型,得到第二分类模型。
-
公开(公告)号:CN117496285A
公开(公告)日:2024-02-02
申请号:CN202310385195.5
申请日:2023-04-11
申请人: 马上消费金融股份有限公司
IPC分类号: G06V10/774 , G06V10/40 , G06V20/40 , G06T7/246 , G06T7/73
摘要: 本申请实施例提供了多目标跟踪模型的训练、多目标跟踪方法及装置,将N个图像样本分别对应的图像特征向量和遮挡后真实标签序列集合输入至待训练的生成式语言模型进行参数迭代训练,得到训练后的生成式语言模型,该模型可以作为目标跟踪模型,将待检测视频数据中P个待检测图像帧分别对应的图像特征向量输入至该生成式语言模型,基于模型输出结果即可实现对多目标进行跟踪,由于在生成式语言模型训练阶段,每个目标真实标签子序列不仅包括表征位置信息的序列块,还包括表征类别信息和唯一标识的序列块,使得模型在学习目标位置检测的同时学习了不同目标对象的区分,训练后的模型能够同时完成目标检测和跟踪,从而提高了多目标跟踪效率。
-
公开(公告)号:CN117493559A
公开(公告)日:2024-02-02
申请号:CN202310805170.6
申请日:2023-06-30
申请人: 马上消费金融股份有限公司
IPC分类号: G06F16/35 , G06N20/00 , G06F18/214 , G06F18/241
摘要: 本申请提供了一种文本分类模型的训练方法、文本分类方法及相关设备,文本分类模型的训练方法包括:获取新增分类任务的新增训练样本,并生成新增训练样本的样本输入向量,样本输入向量包括样本子向量以及辅助子向量;辅助子向量中包含新增分类任务的任务标识分量;从预训练分类模型所包含的多个模型参数列中,选择与任务标识分量相对应的目标参数列;通过样本子向量,对目标参数列中的参数值进行更新,得到文本分类模型。本申请在出现新增分类任务的情况下,只需通过新增训练样本对目标参数列进行更新,从而大幅提升了文本分类模型的训练效率。
-
公开(公告)号:CN114880430B
公开(公告)日:2023-07-18
申请号:CN202210502398.3
申请日:2022-05-10
申请人: 马上消费金融股份有限公司
IPC分类号: G06F16/33 , G06F16/335 , G06F40/30 , G06F18/22
摘要: 本申请实施例提供了名称处理方法及装置,在获取到目标对象的第一非标准名称后,对第一非标准名称进行简化处理,得到第二非标准名称;以及对待简化标准名称集中的标准名称进行简化处理,得到简化标准名称集;然后确定简化标准名称集中与第二非标准名称相匹配的目标简化标准名称,目标简化标准名称对应的未简化标准名称即可作为第一非标准名称的参考标准名称,以使得在用户输入不规范的名称时,从预设标准名称集中自动匹配该不规范名称对应的参考标准名称,这样能够提高针对不规范名称进行标准名称匹配的效率和匹配准确度,并且还可以根据该参考标准名称对不规范名称进行纠正或者根据该参考标准名称确定输入不规范名称的用户是否为目标服务用户。
-
公开(公告)号:CN116151265A
公开(公告)日:2023-05-23
申请号:CN202211249950.9
申请日:2022-10-12
申请人: 马上消费金融股份有限公司
IPC分类号: G06F40/30 , G06F40/216 , G06N3/04 , G06N3/0895
摘要: 本申请实施例公开了一种语言模型训练方法、数据处理方法及装置。语言模型训练方法包括:获取样本语义数据,包括多个样本语句组成的样本文本、每个样本语句中的各字符在对应样本语句中的第一字符位置信息、以及每个样本语句在样本文本中的第一语句位置信息;将样本语义数据输入待训练的语言模型,对多个样本语句进行乱序处理,得到多个乱序语句组成的乱序文本、每个乱序语句中的各字符在对应乱序语句中的第二字符位置信息,以及每个乱序语句在乱序文本中的第二语句位置信息;对多个乱序语句进行还原处理,得到还原语义数据;基于样本语义数据和还原语义数据进行模型训练。该技术方案能够提升语言模型的模型性能。
-
公开(公告)号:CN116151233A
公开(公告)日:2023-05-23
申请号:CN202211096247.9
申请日:2022-09-08
申请人: 马上消费金融股份有限公司
IPC分类号: G06F40/279 , G06F40/216 , G06F40/30 , G06N3/04
摘要: 本说明书实施方式提供了一种数据标注方法、生成方法、模型训练方法、设备和介质。所述方法可以包括:获取待标注样本,所述待标注样本包括至少一个文本,所述文本包含至少一个事件,其中,每个文本包括至少一个文本语句;识别每个文本中的文本语句得到识别结果,若识别结果包括待标注信息,则根据所述待标注信息对对应的文本语句进行标注,所述待标注信息包括信息类型以及论元,所述信息类型为文本语句针对事件表达的观点类型,所述论元包括所述观点对应的目标事件和/或所述观点涉及的文本的实体信息。实现提升针对事件相关文本的内容提取的全面性。
-
公开(公告)号:CN116150357A
公开(公告)日:2023-05-23
申请号:CN202211601630.5
申请日:2022-12-13
申请人: 马上消费金融股份有限公司
IPC分类号: G06F16/35 , G06F16/332 , G06F18/2431
摘要: 本申请提供了一种意图识别方法、装置、电子设备及可读存储介质,用于提升意图识别的准确率。该方法包括:获取意图识别文本并进行向量化处理,得到意图识别文本向量;将意图识别文本向量输入意图识别模型;获取意图识别模型针对意图识别文本输出的第一意图标签以及第二意图标签;根据第二意图标签,确定意图识别文本对应的初始意图类型;在确定初始意图类型识别错误的情况下,根据第一意图标签,确定意图识别文本对应的更新意图类型,根据更新意图类型确定意图识别文本的目标意图。由此可见,该方法根据标签层级结构信息实现多分类的层级分类学习,从而提升意图识别模型在多意图场景下的性能,进一步提升意图识别的准确率。
-
-
-
-
-
-
-
-
-