Patent search ap:("北京中科闻歌科技股份有限公司") AND inv:"李彤" Page 1

1.

发明公开
基于多模型的PDF解析方法、电子设备和存储介质审中-实审

公开(公告)号：CN119692335A

公开(公告)日：2025-03-25

申请号：CN202411760336.8

申请日：2024-12-03

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 李彤 , 郝艳妮 , 徐楠 , 王婧宜 , 李军锋 , 罗引 , 王磊

IPC: G06F40/205 , G06F18/2431 , G06V30/41

Abstract: 本发明提供了一种基于多模型的PDF解析方法、电子设备和存储介质，方法包括利用规则提取、版面分析、表格识别、公式检测、公式识别、多模态大模型chart2text、多模态大模型段落排序等方法获取复杂PDF中可能出现的所有元素类型。本发明能够实现复杂PDF的完整结构化解析以及支持扫描件和非扫描件。

2.

发明授权
一种虚拟角色的渲染方法、电子设备及存储介质有权

公开(公告)号：CN116996707B

公开(公告)日：2024-08-13

申请号：CN202310967284.0

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 陈博 , 郑洋 , 李彤 , 徐楠 , 李军锋 , 曹家 , 王磊

IPC: H04N21/234 , H04N21/44 , G06T3/4038 , G06N3/094 , G06N3/0475 , G06N3/0464 , G06T3/4046 , G06V10/82 , G06V40/16

Abstract: 本发明提供了一种虚拟角色的视频渲染方法，包括如下步骤：基于目标虚拟角色的第一人脸图像和目标虚拟角色对应的目标音频数据，获取到预设口型图像集；预设口型图像集包括若干个口型图像；根据若干个口型图像和第二人脸图像，获取到拼接人脸图像集；拼接人脸图像集包括若干个拼接人脸图像；根据若干个拼接人脸图像和目标换脸模型，获取到目标人脸图像集；目标人脸图像集包括若干个目标人脸图像；根据若干个目标人脸图像和目标虚拟角色的初始人脸图像，获取到目标虚拟角色对应的目标渲染视频。本发明能够实现虚拟角色视频的实时驱动与渲染，并能够应用于多种语言的语音播报。

3.

发明公开
一种基于多模态大模型的图表关键信息提取方法审中-公开

公开(公告)号：CN120088801A

公开(公告)日：2025-06-03

申请号：CN202510250209.1

申请日：2025-03-04

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 郝艳妮 , 李彤 , 徐楠 , 王庆立 , 李军锋 , 曹家 , 罗引 , 王磊

IPC: G06V30/41 , G06V30/19 , G06N5/04

Abstract: 本申请涉及电数字数据处理技术领域，特别是涉及一种基于多模态大模型的图表关键信息提取方法。该方法包括：获取初始提示文本；根据目标图表的类型和用户输入的问题的类型获取目标信息类型；获取所述目标信息类型对应的目标信息在目标图表中的位置信息；根据所述初始提示文本中与目标信息类型对应的提示文本以及目标信息类型目标信息类型对应的目标信息在目标图表中的位置信息构建目标提示文本；将目标提示文本和目标图表输入至多模态大模型，根据多模态大模型的输出获取目标图表的与用户输入的问题相关的关键信息。本发明能够根据任务需求精准提取图表的关键信息。

4.

发明公开
多模态图表问答大模型构建方法、电子设备和存储介质审中-实审

公开(公告)号：CN119692472A

公开(公告)日：2025-03-25

申请号：CN202411760334.9

申请日：2024-12-03

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 郝艳妮 , 李彤 , 王庆立 , 徐楠 , 李军锋 , 曹家 , 罗引 , 王磊

IPC: G06N5/04 , G06N20/00 , G06F40/284

Abstract: 本发明提供了一种多模态图表问答大模型构建方法、电子设备和存储介质，包括：基于第一样本数据集对图文对齐模型进行训练，得到训练好的图文特征对齐模型；其中，第一样本数据集中包括图像样本和对应的文本内容；基于第二样本数据集对具有训练好的图文特征对齐模型的多模态图表问答大模型进行训练，得到训练后的多模态图表问答大模型，作为最终的多模态图表问答大模型，第二样本数据集包括图表样本的上下文表示信息、图像和问答对数据。本发明得到的多模态图表问答大模型相对于现有的多模态图表问答大模型的图表问答能力能够得到进一步提升，且具有较强的中文理解能力。

5.

发明公开
实时问答虚拟人视频生成方法、电子设备及存储介质审中-实审

公开(公告)号：CN116996630A

公开(公告)日：2023-11-03

申请号：CN202310964008.9

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 陈博 , 郑洋 , 李彤 , 徐楠 , 李军锋 , 曹家 , 王磊

IPC: H04N5/262 , G10L21/10 , G10L21/18 , H04N5/265 , G06N3/0475 , G06N3/094 , G06F16/332

Abstract: 本发明提供了一种实时问答虚拟人视频生成方法、电子设备及存储介质，方法包括：基于待播报信息获取对应的场景视频；对音频文件进行特征提取，得到对应的音频特征；基于场景视频和音频特征，生成口型与音频特征相匹配的场景视频，作为初始人脸驱动视频；基于场景视频中的目标图像以及初始驱动视频，获取对应的人脸关键点、人脸深度图和人脸的RGB编码特征；基于获取的人脸关键点、人脸深度图和人脸的RGB编码特征，得到目标人脸驱动视频；利用目标人脸驱动视频中的人脸替换场景视频中的人脸，得到虚拟人视频；将虚拟人视频和音频文件进行合成，得到待播报的虚拟人播报视频。本发明能够提高虚拟人视频的制作效率。

6.

发明公开
一种基于多模态大模型的图表处理方法审中-公开

公开(公告)号：CN120088802A

公开(公告)日：2025-06-03

申请号：CN202510250211.9

申请日：2025-03-04

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 郝艳妮 , 王庆立 , 徐楠 , 李彤 , 李军锋 , 曹家 , 罗引 , 王磊

IPC: G06V30/41 , G06V30/19 , G06N5/04

Abstract: 本申请涉及电数字数据处理技术领域，特别是涉及一种基于多模态大模型的图表处理方法。该方法包括：获取目标图表的上下文关键信息；根据用户输入的初始问题获取所述初始问题的问题类型；根据所述初始问题的问题类型和目标图表的类型从目标图表的上下文关键信息中筛选与所述初始问题的问题类型和目标图表的类型关联的信息；根据筛选得到的与所述初始问题的问题类型和目标图表的类型关联的信息和所述初始问题构建与所述初始问题对应的目标问题；将所述目标问题和目标图表输入多模态大模型，将多模态大模型的输出确定为所述初始问题对应的答案。本发明能够提高模型输出结果的准确性和效率。

7.

发明授权
实时问答虚拟人视频生成方法、电子设备及存储介质有权

公开(公告)号：CN116996630B

公开(公告)日：2024-07-12

申请号：CN202310964008.9

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 陈博 , 郑洋 , 李彤 , 徐楠 , 李军锋 , 曹家 , 王磊

IPC: H04N5/262 , G10L21/10 , G10L21/18 , H04N5/265 , G06N3/0475 , G06N3/094 , G06F16/332

Abstract: 本发明提供了一种实时问答虚拟人视频生成方法、电子设备及存储介质，方法包括：基于待播报信息获取对应的场景视频；对音频文件进行特征提取，得到对应的音频特征；基于场景视频和音频特征，生成口型与音频特征相匹配的场景视频，作为初始人脸驱动视频；基于场景视频中的目标图像以及初始驱动视频，获取对应的人脸关键点、人脸深度图和人脸的RGB编码特征；基于获取的人脸关键点、人脸深度图和人脸的RGB编码特征，得到目标人脸驱动视频；利用目标人脸驱动视频中的人脸替换场景视频中的人脸，得到虚拟人视频；将虚拟人视频和音频文件进行合成，得到待播报的虚拟人播报视频。本发明能够提高虚拟人视频的制作效率。

8.

发明公开
一种虚拟角色的渲染方法、电子设备及存储介质审中-实审

公开(公告)号：CN116996707A

公开(公告)日：2023-11-03

申请号：CN202310967284.0

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 陈博 , 郑洋 , 李彤 , 徐楠 , 李军锋 , 曹家 , 王磊

IPC: H04N21/234 , H04N21/44 , G06T3/40 , G06N3/094 , G06N3/0475 , G06N3/0464 , G06V10/82 , G06V40/16

Abstract: 本发明提供了一种虚拟角色的视频渲染方法，包括如下步骤：基于目标虚拟角色的第一人脸图像和目标虚拟角色对应的目标音频数据，获取到预设口型图像集；预设口型图像集包括若干个口型图像；根据若干个口型图像和第二人脸图像，获取到拼接人脸图像集；拼接人脸图像集包括若干个拼接人脸图像；根据若干个拼接人脸图像和目标换脸模型，获取到目标人脸图像集；目标人脸图像集包括若干个目标人脸图像；根据若干个目标人脸图像和目标虚拟角色的初始人脸图像，获取到目标虚拟角色对应的目标渲染视频。本发明能够实现虚拟角色视频的实时驱动与渲染，并能够应用于多种语言的语音播报。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification