-
公开(公告)号:CN112613293B
公开(公告)日:2024-05-24
申请号:CN202011593291.1
申请日:2020-12-29
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/194 , G06V30/19
Abstract: 本发明实施例公开了一种摘要生成方法、装置、电子设备及存储介质,所述方法包括:获取摘要文本信息;分别确定预设图像集中至少一个图像与所述摘要文本信息的图文相似度;分别提取所述至少一个图像中的图像文本信息,并确定各所述图像的图像文本信息与所述摘要文本信息的文本相似度;基于各所述图像的图文相似度和文本相似度确定与所述摘要文本信息相匹配的摘要图像;基于所述摘要图像和所述摘要文本信息形成目标摘要。本发明实施例的技术方案实现了当用户阅读初始文本时,可以通过摘要图像直观的了解文本的大致内容,通过阅读摘要文本信息获知文本主旨内容,提高用户的阅读体验感。
-
公开(公告)号:CN112866586B
公开(公告)日:2023-03-07
申请号:CN202110003232.2
申请日:2021-01-04
Applicant: 北京中科闻歌科技股份有限公司
IPC: H04N5/265 , G10L13/04 , G10L13/047 , G10L21/10 , G10L25/57
Abstract: 本发明实施例公开了一种视频合成方法、装置、设备及存储介质。获取的待合成文本可以是任意语种的文本,待合成视频可以是用户选择的包括任意主播形象的视频片段,根据获取的待合成文本自动生成音频流,基于待合成视频中的无音视频流生成视频特征和唇部特征,并根据音频流生成音频特征和口型特征,基于口型特征和唇部特征确定口唇映射关系,根据口唇映射关系生成口唇一致的视频序列,进一步地,根据融合后的视频序列,生成目标合成视频,使整个目标合成视频中的人脸和唇部动作保持一致,并使目标合成视频中的主播唇动保持自然一致,并生成符合用户意愿的目标合成视频,提高用户观看体验。
-
公开(公告)号:CN113052413A
公开(公告)日:2021-06-29
申请号:CN201911368970.6
申请日:2019-12-26
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本申请提供了一种风险旅客评估方法,包括:获取多个待评估旅客的信息,每个待评估旅客的信息包括多个出行信息和多个属性信息;根据出行信息计算每个待评估旅客的第一风险值,并将第一风险值超过第一预设阈值的待评估旅客纳入第一候选旅客集合;将出行信息输入梯度提升决策树,输出待评估旅客的第二风险值,并将第二风险值超过第一预设阈值的待评估旅客纳入第二候选旅客集合;根据第一候选旅客集合与第二候选旅客集合得到第三候选旅客集合;根据第三候选旅客集合中的第三候选旅客的身份信息,计算第三风险值,并确定第三风险值超过第二预设阈值的第三候选旅客为风险旅客,采用多方信息和梯度提升决策树对风险旅客进行评估,增加了评估的准确性。
-
公开(公告)号:CN110134942B
公开(公告)日:2020-10-23
申请号:CN201910260924.8
申请日:2019-04-01
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/211 , G06F40/289 , G06F16/951 , G06F16/9535 , G06F16/35
Abstract: 本发明实施例涉及一种文本热点提取方法及装置,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据;采用依存句法分析算法将第二短文本数据生成对应的第四短文本数据;将第三短文本数据和第四文短本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个文本向量之间的相似度;将相似度大于相似度阈值的两个文本向量进行合并处理,句法分析抽取关系词而组成的短句提高了信息抽取的可观性和准确度,让用户可以更好的理解文本内容从而获取核心关键信息点,通过Word2vec将短句向量化进行相似度对比,保留词语之间的语义信息,从而保证了排重工作的准确性,尽可能的避免了热点信息的冗余。
-
公开(公告)号:CN109840687A
公开(公告)日:2019-06-04
申请号:CN201811604779.2
申请日:2018-12-26
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06Q10/06
Abstract: 本发明涉及一种品牌影响力指数构建方法、系统及存储介质。现有品牌影响力指数构建方法效率低、误差大的问题,本发明获取企业影响力和产品影响力,并分别获取企业影响力权重和产品影响力权重,根据企业影响力、产品影响力和企业影响力权重和产品影响力权重计算品牌影响指数。本发明针对采集的品牌数据,采用机器的方法对设计的品牌影响指标定量评价并量化计算方法进行量化评估,从而大大提高品牌评估的准确性和有效性,可更好地服务于现有品牌的评估量化工作,准确性高,误差小,实用性强。
-
公开(公告)号:CN109783778A
公开(公告)日:2019-05-21
申请号:CN201811577909.8
申请日:2018-12-20
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本发明实施例涉及一种文本溯源方法、设备及存储介质,所述方法包括:根据待判定文本和源文本生成词袋模型,所述源文本包括多个文本;利用多种预设的相似度算法,分别对所述词袋模型进行相似度计算,确定在不同相似度算法的情况下,所述源文本中多个文本与所述待判定文本的多个第一相似度排序;基于第一公式和所述第一相似度排序确定所述源文本源文本中多个文本与所述待判定文本的第二相似度排序;基于所述第二相似度排序从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本,采用多种相似度的算法,可以弥补单一算法的不足,减少因计算方式不同带来的偶然性,提升计算结果的全面性和准确性。
-
公开(公告)号:CN120046687A
公开(公告)日:2025-05-27
申请号:CN202510117975.0
申请日:2025-01-24
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本公开涉及一种大语言模型训练、信息处理方法、装置、设备及介质。其中,大语言模型训练方法包括:获取第一训练文本,基于待训练大语言模型计算第一训练文本中各个token分别对应的期望梯度值;对各个token分别对应的期望梯度值进行融合处理,得到正则化项;基于正则化项对待训练大语言模型进行无监督预训练,得到第一大语言模型;获取第二训练文本,基于第二训练文本对应的目标正则化项对第一大语言模型进行有监督指令微调,得到第二大语言模型,将第二大语言模型确定为训练完成的大语言模型,由此,能够将大语言模型的解释结果融入大语言模型的训练过程中,提高了训练完成的大语言模型的性能。
-
公开(公告)号:CN109815395B
公开(公告)日:2021-06-08
申请号:CN201811608345.X
申请日:2018-12-26
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/9535 , G06F16/957
Abstract: 本发明实施例涉及一种网页垃圾信息过滤方法、装置及存储介质,所述方法包括:按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;对多个所述目标数据进行预处理;将经预处理后的多个目标数据进行向量化;确定经过向量化处理后的多个目标数据对应的多个相似度值;基于多个所述相似度值确定所述原始文本中的异常文本,够准确的提高内容识别系统的准确性和鲁棒性。
-
公开(公告)号:CN112866586A
公开(公告)日:2021-05-28
申请号:CN202110003232.2
申请日:2021-01-04
Applicant: 北京中科闻歌科技股份有限公司
IPC: H04N5/265 , G10L13/04 , G10L13/047 , G10L21/10 , G10L25/57
Abstract: 本发明实施例公开了一种视频合成方法、装置、设备及存储介质。获取的待合成文本可以是任意语种的文本,待合成视频可以是用户选择的包括任意主播形象的视频片段,根据获取的待合成文本自动生成音频流,基于待合成视频中的无音视频流生成视频特征和唇部特征,并根据音频流生成音频特征和口型特征,基于口型特征和唇部特征确定口唇映射关系,根据口唇映射关系生成口唇一致的视频序列,进一步地,根据融合后的视频序列,生成目标合成视频,使整个目标合成视频中的人脸和唇部动作保持一致,并使目标合成视频中的主播唇动保持自然一致,并生成符合用户意愿的目标合成视频,提高用户观看体验。
-
公开(公告)号:CN109614478B
公开(公告)日:2020-12-08
申请号:CN201811552104.8
申请日:2018-12-18
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/332 , G06F40/30 , G06F40/289
Abstract: 本申请实施例涉及一种词向量模型的构建方法、关键词匹配方法及装置,所述方法包括:选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的所述关联文档数据。该模型在训练过程中,结合选定的目标文档数据,以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据,提高了该模型的准确性。
-
-
-
-
-
-
-
-
-