Patent search ap:("国家计算机网络与信息安全管理中心" OR "北京中科闻歌科技股份有限公司") AND inv:"罗引" Page 18

171.

发明授权
一种图像去噪处理系统有权

公开(公告)号：CN116797493B

公开(公告)日：2024-01-26

申请号：CN202310964411.1

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 王磊 , 徐楠 , 郝艳妮 , 陈博 , 李军锋 , 曹家 , 罗引

IPC: G06T5/70 , G06T5/50 , G06V10/30 , G06V10/80

Abstract: 本发明涉及图像处理领域，尤其涉及一种图像去噪处理系统，包括：含噪人脸图像A、中间素描图像特征集合B=（B1，B2，……，Bn，……，BM）和文本特征C，所述系统实现以下步骤：对A和B1进行下采样得到第一个中间图像特征D1，对Di和Bi进行下采样得到Di+1，对DM和文本特征C进行注意力特征提取得到注意力图像特征E，对E进行上采样得到第一个中间噪声图像特征F1，对Fj和DM‑j进行上采样得到Fj+1，对FM‑1和D1进行上采样得到预测噪声图像G，根据A和G得到去噪人脸图像，将图像模态下的B、文本模态下的C与A进行信息融合，根据双模态的特征信息提高了对A的表征能力，提高了去噪结果的准确性。

172.

发明授权
基于语音驱动和人脸自驱动的虚拟人视频合成方法有权

公开(公告)号：CN116528019B

公开(公告)日：2024-01-26

申请号：CN202310724745.1

申请日：2023-06-19

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 郑洋 , 陈博 , 徐楠 , 李军锋 , 曹家 , 王磊

IPC: H04N21/81 , G06T13/20 , G06T13/40

Abstract: 本发明提供了一种基于语音驱动和人脸自驱动的虚拟人视频合成方法，包括：对原始虚拟人视频素材进行预处理，得到首帧人脸图像为基准人脸图像的第一视频素材；利用设定口型驱动模型驱动所述第一视频素材，得到第二视频素材；将第一视频素材中的首帧人脸图像作为被驱动人脸图像，将第二视频素材中的人脸图像作为口型驱动图像序列，通过设定人脸驱动算法得到第三视频素材；利用第三视频素材中的人脸图像替换原始虚拟人视频素材中对应的人脸图像，得到第四视频素材；将第四视频素材和目标音频文件进行合成，得到虚拟人内容播报视频。本发明能够高清化虚拟人的唇形、牙齿细节，发音和唇形吻合度高，可以对新的人物形象不加训练而快速迁移。

173.

发明公开
基于多模态大模型的图表问答方法、系统、介质和设备有权

公开(公告)号：CN117390165A

公开(公告)日：2024-01-12

申请号：CN202311409539.8

申请日：2023-10-27

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 魏靖烜 , 陈博 , 郝艳妮 , 马先钦 , 徐楠 , 曹家 , 王磊

IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06F16/34

Abstract: 本申请涉及图表问答技术领域，特别是涉及一种基于多模态大模型的图表问答方法、系统、介质和设备。该方法包括：提取待处理图表中的目标文本信息，得到图表文本特征向量；提取上述待处理图表中目标图像信息，得到图表图像特征向量；将综合文本特征向量和图表图像特征向量进行对齐；根据对齐后的综合文本特征向量和图表图像特征向量生成待处理图表对应的问题对应的目标回答。本申请对于待处理图表的信息提取分为两部分进行，提供的待处理图表的信息更具针对性，更精确，则最终得到的图标问答对应的回答的准确性也越高。

174.

发明授权
基于细粒度感知的文本视频跨模态检索方法和装置有权

公开(公告)号：CN116166843B

公开(公告)日：2023-11-07

申请号：CN202310200445.3

申请日：2023-03-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 郝艳妮 , 马先钦 , 郝保 , 方省 , 曹家 , 王磊

IPC: G06F16/783 , G06F40/289 , G06F18/22

Abstract: 本公开涉及一种基于细粒度感知的文本视频跨模态检索方法和装置。所述方法包括：通过文本特征编码模型，对待匹配文本进行特征提取，获得所述待匹配文本的多个词语的文本特征向量集；通过视频特征编码模型，对待匹配视频进行特征提取，获得多个目标对象的目标特征向量集；通过跨模态匹配模型，确定目标特征向量集和文本特征向量集之间的相关性得分。根据本公开的实施例的基于细粒度感知的文本视频跨模态检索方法，可在检索任务中引入更细粒度的语义特征，并在模型训练中针对更细粒度的语义特征的识别和对比能力加以训练，使得模型能够对更细粒度的语义特征进行检索，可提升跨模态检索的准确性。

175.

发明公开
数据分片调整方法、装置、设备及可读存储介质审中-实审

公开(公告)号：CN116955087A

公开(公告)日：2023-10-27

申请号：CN202310981093.X

申请日：2023-08-04

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 张帅星 , 杜江涛 , 方省 , 曹家 , 罗引 , 王磊

IPC: G06F11/30

Abstract: 本公开涉及一种数据分片调整方法、装置、设备及可读存储介质，通过对分布式集群进行监控，得到所述分布式集群的监控数据，基于所述监控数据判断分布式集群当前是否满足预设的分片调整条件，若所述分布式集群当前满足预设的分片调整条件，则对所述数据分片在分布式集群的各个节点上的分布进行调整。由于基于监控数据进行判断，当判断出所述分布式集群当前满足预设的分片调整条件时，对所述数据分片在分布式集群的各个节点上的分布进行调整，可以避免资源倾斜问题，充分发挥分布式集群的优势，从而会提高检索性能、提高系统的稳定性。并且，可以减少人工干预和手动操作，实现自动化管理，降低管理成本和工作量。

176.

发明授权
一种视觉驱动的虚拟角色处理系统有权

公开(公告)号：CN116452787B

公开(公告)日：2023-10-10

申请号：CN202310696721.X

申请日：2023-06-13

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 郑洋 , 陈博 , 徐楠 , 方省 , 曹家 , 王磊

IPC: G06T19/20 , G06T7/55 , G06T7/70 , G06V40/16

Abstract: 本发明提供了一种视觉驱动的虚拟角色处理系统，该系统包括非虚拟角色图像组列表A={A1，A2，……，Ai，……，Am}、虚拟角色图像组B、处理器和存储有计算机程序的存储器，i=1，2，……，m，m为非虚拟角色图像组数量，Ai为第i帧非虚拟角色图像组，还包括根据A获得的非虚拟姿态图像组C={C1，C2，……，Ci，……，Cm}和非虚拟面部图像组D={D1，D2，……，Di，……，Dm}，以及根据虚拟角色图像组B获得的虚拟角色的姿态图像Bb和虚拟角色的表情图像Bm，当所述计算机程序被处理器执行时，将Ci与Bb对齐，将Di与Bm对齐，提高了虚拟角色与非虚拟角色的吻合度。

177.

发明公开
一种图像生成系统审中-实审

公开(公告)号：CN116823597A

公开(公告)日：2023-09-29

申请号：CN202310964424.9

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 王磊 , 徐楠 , 郝艳妮 , 陈博 , 李军锋 , 曹家 , 罗引

IPC: G06T3/00 , G06N3/0475 , G06N3/094

Abstract: 本发明涉及图像处理领域，尤其涉及一种图像生成系统，包括：目标图像A和A对应的目标语义特征向量B，所述系统实现以下步骤：将A作为待加噪图像A0，初始化加噪次数t=0，通过噪声预测模型对A0和B进行噪声预测，得到噪声预测结果Ct，对A0和Ct进行加权相加，得到加噪图像Dt，以Dt作为A0，迭代得到目标加噪图像E，将E和B输入图像生成模型中进行图像生成，得到生成图像Es，以Es作为E，迭代得到目标生成图像，通过编码噪声的形式提取A中的随机信息、面部细节和语义信息等信息，并在A上多次叠加编码得到的噪声来得到E，进一步对E和B进行多次图像生成处理得到目标生成图像，提高了目标生成图像的准确性。

178.

发明公开
一种基于多模态特征的视频分类方法审中-实审

公开(公告)号：CN116361509A

公开(公告)日：2023-06-30

申请号：CN202310217049.1

申请日：2023-03-02

Applicant: 新华融合媒体科技发展(北京)有限公司 , 北京中科闻歌科技股份有限公司

Inventor： 郭鸿飞 , 马先钦 , 李雪 , 刘宏宇 , 蔡昌艳 , 王璋盛 , 曹家 , 罗引 , 王磊

IPC: G06F16/75 , G06F16/735 , G06F16/783

Abstract: 本申请涉及视频分类技术领域，特别是涉及一种基于多模态特征的视频分类方法。所述方法包括以下步骤：S100，抽取目标视频vid的视频时序特征Fts；将Fts进行聚合得到Fv；S200，将vid转换为wav格式的音频数据aud；抽取aud的音频时序特征Fas；将Fas进行聚合得到Fa；S300，按照预设频次对vid进行视频帧图像抽取，得到视频帧图像集合img；提取img中的字幕文本信息textocr，并结合vid的文本标题texttitle获取vid的第三特征向量Ft；S400，将Fv、Fa和Ft输入到经训练的第一神经网络模型，得到对vid的一级标签分类结果。本发明实现了对短视频内容的准确分类。

179.

发明公开
一种事件脉络生成方法、电子设备和存储介质审中-实审

公开(公告)号：CN116361468A

公开(公告)日：2023-06-30

申请号：CN202310347374.X

申请日：2023-04-03

Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司

Inventor： 王磊 , 郭鸿飞 , 王俊艳 , 蔡昌艳 , 蒋永余 , 徐才 , 王宇琪 , 曹家 , 罗引

IPC: G06F16/35

Abstract: 本发明提供了一种事件脉络生成方法、电子设备和存储介质，方法包括：首先对接收到的文本进行文本编码，然后进行文本聚类，并进行话题清洗与合并，得到所有话题，然后对每个话题，进行事件拆分，得到每个事件，并对相似事件进行合并，然后基于文本相似度进行事件脉络生成，能够更好地划分话题或事件，使得生成的话题或事件更加准确。此外，本发明不需要人工干预，可自动对多篇新闻进行数据预处理，生成话题库和事件库，并根据发布时间，输出事件的事件脉络。

180.

发明公开
一种LOGO识别系统审中-实审

公开(公告)号：CN116206295A

公开(公告)日：2023-06-02

申请号：CN202310196542.X

申请日：2023-03-02

Applicant: 新华融合媒体科技发展(北京)有限公司 , 北京中科闻歌科技股份有限公司

Inventor： 郭鸿飞 , 马先钦 , 张垚 , 姚奇伶 , 蔡津津 , 王璋盛 , 曹家 , 罗引 , 王磊

IPC: G06V20/60 , G06V10/22 , G06V10/426 , G06V10/74 , G06F16/583 , G06V10/776 , G06V10/82

Abstract: 本申请涉及计算机视觉技术领域，特别是涉及一种LOGO识别系统。该系统包括存储器，所述存储器存储有LOGO数据库，所述LOGO数据库由至少两个LOGO子数据库组成，不同LOGO子数据库对应的LOGO宽高比例范围不同；每个LOGO子数据库存储有对应LOGO的特征向量，每个LOGO子数据库中LOGO对应的特征向量的存储位置标号与对应的LOGO面积占比正相关或负相关；所述系统还包括处理器和存储有计算机程序的存储介质，当所述计算机程序被处理器执行时，实现对应的LOGO识别方法。本发明能够快速识别出图像和视频数据中的LOGO。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification