一种细粒度多模态大模型训练方法

Invention Grant

Please log in to see more content

Patent Title: 一种细粒度多模态大模型训练方法
Application No.: CN202410478451.X

Application Date: 2024-04-19
Publication No.: CN118072128B

Publication Date: 2024-08-13
Inventor: 杨恒 , 龙涛 , 余文炫 , 李轩 , 吴永杰 , 李娟 , 陈序
Applicant: 深圳爱莫科技有限公司
Applicant Address: 广东省深圳市南山区西丽街道西丽社区打石一路深圳国际创新谷2栋A座2304
Assignee: 深圳爱莫科技有限公司
Current Assignee: 深圳爱莫科技有限公司
Current Assignee Address: 广东省深圳市南山区西丽街道西丽社区打石一路深圳国际创新谷2栋A座2304
Agency: 深圳砾智知识产权代理事务所
Agent 张合成
Main IPC: G06V10/774
IPC: G06V10/774 ; G06V10/26 ; G06V10/40

Abstract:

本发明公开了一种细粒度多模态大模型训练方法，包括如下步骤：S1、获取烟包陈列图像，将烟包陈列图像输入语义分割模型；S2、语义分割模型对烟包陈列图像进行分割，生成烟包分割图像，烟包分割图像包括每个烟包的陈列位置信息；S3、将烟包分割图像输入至图像识别模型，生成烟包信息，每个烟包信息包括烟包品牌、规格、商标、公司以及烟包价格；S4、将每个烟包的烟包信息和烟包分割图像的陈列位置信息进行结构化处理，得到每个烟包的文本信息，并输入至大语言模型；S5、基于用户提问，大语言模型根据每个烟包的文本信息输出用户提问对应的烟包陈列信息。本发明能够使大语言模型所输出的烟包陈列信息与用户的提问更加契合。

Public/Granted literature

CN118072128A 一种细粒度多模态大模型训练方法 Public/Granted day:2024-05-24

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V10/00	图像或视频识别或理解的安排（图像或视频中的字符识别 G06V30/10）
G06V10/70	.使用模式识别或机器学习（光学模式识别或电子计算 G06V10/88）
G06V10/77	..处理特征空间中的图像或视频特征；使用数据集成或数据缩减，例如主成分分析 [PCA] 或独立成分分析 [ICA] 或自组织图 [SOM]；盲源分离
G06V10/774	...生成训练模式集；引导方法，例如捕获或促进