专利检索 ap:("科大讯飞股份有限公司") AND inv:"潘吉材" 第 1 页

1.

发明公开
文案生成方法、装置、电子设备和存储介质审中-公开

公开(公告)号：CN118673136A

公开(公告)日：2024-09-20

申请号：CN202410847601.X

申请日：2024-06-27

申请人： 科大讯飞股份有限公司

发明人： 殷兵 , 盛典 , 董健 , 潘吉材 , 柏航 , 叶润春 , 吴浩 , 夏鹏程 , 刘文超 , 殷保才

IPC分类号： G06F16/34 , G06F40/211 , G06F40/289 , G06F40/284 , G06N3/045 , G06N3/0475 , G06N3/094

摘要： 本发明提供一种文案生成方法、装置、电子设备和存储介质，其中方法包括：获取用户输入的多张图像和/或针对待生成文案的初始需求描述；基于文案生成模型，应用所述多张图像和/或所述初始需求描述进行文案生成，得到文案初稿；获取所述用户输入的针对所述文案初稿的修改需求描述；基于所述文案生成模型，应用所述修改需求描述，或者，应用所述多张图像和所述修改需求描述，对所述文案初稿进行修改，生成目标文案。本发明通过支持多模态输入、引入交互性和迭代性机制，不仅可以满足用户自由编辑的交互需求，还可以提高文案生成的效率和准确性，为用户提供更加高效、准确和灵活的文案生成体验。

2.

发明公开
开放式问答及多模态大模型的训练方法、装置及相关设备审中-公开

公开(公告)号：CN117235232A

公开(公告)日：2023-12-15

申请号：CN202311377895.6

申请日：2023-10-23

申请人： 科大讯飞股份有限公司

发明人： 殷保才 , 潘吉材 , 刘文超 , 盛典 , 吴浩 , 柏航 , 何山 , 殷兵 , 刘权 , 魏思 , 王士进 , 刘聪 , 胡国平

IPC分类号： G06F16/332 , G06V10/774 , G06V20/70

摘要： 本申请公开了一种开放式问答及多模态大模型的训练方法、装置及相关设备，为了促使多模态大模型关注到空间信息，在预训练阶段针对训练图像生成了匹配的带有空间信息的图像描述文本，空间信息用于表示训练图像中包含的对象在训练图像中的空间位置，采用训练图像及上述添加有显性的对象空间信息的图像描述文本对多模态大模型进行预训练，可以使得多模态大模型在学习图像和内容描述文本的语义对齐关系的基础上，进一步关注到图像中对象的空间位置，也即使得多模态大模型具备检测物体空间位置的能力。在此基础上，当将多模态大模型应用于开放式问答任务，在回答与空间排布相关问题时能够基于掌握的能力准确给出正确回答。

3.

发明公开
开放式问答方法、装置及相关设备审中-实审

公开(公告)号：CN117725168A

公开(公告)日：2024-03-19

申请号：CN202311381504.8

申请日：2023-10-23

申请人： 科大讯飞股份有限公司

发明人： 殷保才 , 吴浩 , 刘文超 , 盛典 , 潘吉材 , 柏航 , 陈明军 , 张银田 , 胡金水 , 殷兵 , 刘聪 , 刘权 , 魏思 , 王士进 , 胡国平

IPC分类号： G06F16/332 , G06V20/62 , G06T9/00

摘要： 本申请公开了一种开放式问答方法、装置及相关设备，多模态大模型包括图像编码模块和大语言模型，在回答与目标图像相关的问题文本时，可以调用文本识别算法对目标图像进行文本识别，得到文本识别结果，可以通过大语言模型得到该文本识别结果的特征表示，进一步，大语言模型在解码答案文本时其输入除了包含传统的问题文本的特征表示及训练图像的特征表示之外，额外增加了对目标图像的文本识别结果的特征表示，使得大语言模型可以关注到目标图像中文本内容及其位置信息，如此可以使得多模态大模型具备文字空间感知能力，因而在回答与文字空间排布相关问题时能够基于掌握的对文字的空间感知能力准确给出正确回答。

4.

发明公开
地标识别方法、装置、电子设备和存储介质审中-公开

公开(公告)号：CN118733794A

公开(公告)日：2024-10-01

申请号：CN202410847926.8

申请日：2024-06-27

申请人： 科大讯飞股份有限公司

发明人： 刘文超 , 吴浩 , 夏鹏程 , 柏航 , 董健 , 盛典 , 潘吉材 , 叶润春 , 殷保才

IPC分类号： G06F16/387 , G06F16/332 , G06F40/151 , G06V20/56 , G06V10/40 , G10L15/26

摘要： 本发明提供一种地标识别方法、装置、电子设备和存储介质，其中方法包括：在接收到用户输入的针对待查询地标的语音问题时，基于车外摄像头，采集多张车外图像；将语音问题转换为文本，并对车外图像进行特征提取，得到图像特征；将图像特征和文本进行拼接，得到拼接结果，并将拼接结果输入至地标识别模型，得到地标识别模型输出的针对语音问题的回答，地标识别模型基于拼接结果，确定待查询地标的检索标识，应用检索标识从周边地图数据库中检索得到待查询地标的详细信息，并基于拼接结果和详细信息，生成回答。本发明提供了便捷和直观的地标查询方式，用户可以通过语音针对待查询地标进行自由提问，即可获得地标的相关信息，提升了用户体验。