-
公开(公告)号:CN112364641A
公开(公告)日:2021-02-12
申请号:CN202011259475.4
申请日:2020-11-12
Applicant: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 北京中科闻歌智安科技有限公司
IPC: G06F40/284 , G06F40/166
Abstract: 本申请涉及一种面向文本审核的中文对抗样本生成方法及装置,其中方法包括:获取待处理语句信息;对待处理语句信息进行分词,得到多个词语;确定词语的第一重要性信息;获取各个词语对应的扰动词语;根据第一重要性信息,依次得到将待处理语句信息中各个词语替换为对应的扰动词语后的扰动语句信息;在确定扰动语句信息满足预设条件时,根据扰动语句信息得到对待处理语句信息攻击成功后的对抗样本。通过本实施例中的方法可以实现对待处理语句进行词语替换的方式得到对抗样本,进而可以增加用于对预测模型进行训练的样本的多样性,同时可以通过自动生成对抗样本,提升训练数据获取的便利性,提升模型训练的效率。
-
公开(公告)号:CN108829659B
公开(公告)日:2021-02-09
申请号:CN201810418503.9
申请日:2018-05-04
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/211 , G06F40/30 , G06F40/205
Abstract: 本发明公开了一种引用识别方法、设备和计算机可存储介质。所述方法,包括:获取原创语料和候选语料;利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值;根据所述原创语料和所述候选语料的ROUGE值的大小,确定所述候选语料引用所述原创语料的程度。本发明解决了通过相似度比较算法不能识别部分引用的问题,本发明利用ROUGE算法,计算两个语料之间的ROUGE值,根据该ROUGE值可以识别出两个语料直接是否存在全部引用关系或者部分引用关系。
-
公开(公告)号:CN109783778B
公开(公告)日:2020-10-23
申请号:CN201811577909.8
申请日:2018-12-20
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/194 , G06F40/289
Abstract: 本发明实施例涉及一种文本溯源方法、设备及存储介质,所述方法包括:根据待判定文本和源文本生成词袋模型,所述源文本包括多个文本;利用多种预设的相似度算法,分别对所述词袋模型进行相似度计算,确定在不同相似度算法的情况下,所述源文本中多个文本与所述待判定文本的多个第一相似度排序;基于第一公式和所述第一相似度排序确定所述源文本源文本中多个文本与所述待判定文本的第二相似度排序;基于所述第二相似度排序从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本,采用多种相似度的算法,可以弥补单一算法的不足,减少因计算方式不同带来的偶然性,提升计算结果的全面性和准确性。
-
公开(公告)号:CN109614478A
公开(公告)日:2019-04-12
申请号:CN201811552104.8
申请日:2018-12-18
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/332 , G06F17/27
Abstract: 本申请实施例涉及一种词向量模型的构建方法、关键词匹配方法及装置,所述方法包括:选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的所述关联文档数据。该模型在训练过程中,结合选定的目标文档数据,以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据,提高了该模型的准确性。
-
公开(公告)号:CN109409529A
公开(公告)日:2019-03-01
申请号:CN201811069882.1
申请日:2018-09-13
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06N20/00 , G06N3/04 , G06N3/08 , G06F16/9535
Abstract: 本发明涉及一种事件认知分析方法、系统及存储介质,分析方法包括:实时获取互联网数据,对互联网数据进行处理得到特征向量;建立多维分类标签库,基于多维分类标签库和机器学习算法训练得到数据标签模型;将特征向量输入数据标签模型得到分类标签;基于分类标签进行事件认知分析。本发明实施例通过对互联网数据进行处理得到互联网数据的特征向量,基于机器学习算法得到数据标签模型,通过数据标签模型对特征向量进行分析,得到相应的分类标签,通过对互联网数据进行智能处理,形成内容关系网络,通过机器学习算法实现事件认知分析。
-
公开(公告)号:CN109408632A
公开(公告)日:2019-03-01
申请号:CN201811069854.X
申请日:2018-09-13
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 相比现有技术,本发明实施例提出的一种信息安全识别方法,通过区分待识别数据的类型,对待识别数据进行预处理,然后选择与待识别数据类型对应的安全识别模型,对待识别数据进行自动安全识别,无需人为操作即可自动完成信息的安全识别,降低了成本,方便快速,且模型识别的精准度比人工监测识别的精准度高。
-
公开(公告)号:CN109299082A
公开(公告)日:2019-02-01
申请号:CN201811068797.3
申请日:2018-09-13
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/215 , G06F16/248
Abstract: 本发明涉及一种大数据分析方法及系统,包括:采集大数据;根据预设的分析组件对所述大数据进行预处理;分析预处理后的大数据,得到可视化的分析组件;根据用户需求选择分析组件的类型;将所述分析组件进行合成,得到整个分析场景。本发明提供的技术方案可以自由选择所需要的分析组件,解决各种数据分析问题,适应各种应用场景。
-
公开(公告)号:CN108763279A
公开(公告)日:2018-11-06
申请号:CN201810319851.0
申请日:2018-04-11
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种网页数据分布式模板采集方法及系统,该采集方法包括:将数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;根据被采集的网页的类型从数据表中获取相应的数据采集模板,将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据。本发明实施例通过构建不同的数据采集模板,根据被采集的网页的类型选取相应的数据采集模板,并通过多个采集客户端通过数据采集模板对该网页分别进行数据采集,保证数据的准确性和完整性。
-
公开(公告)号:CN108683693A
公开(公告)日:2018-10-19
申请号:CN201810225500.3
申请日:2018-03-19
Applicant: 北京中科闻歌科技股份有限公司
IPC: H04L29/08
CPC classification number: H04L67/06
Abstract: 本发明涉及一种多元高效下载服务的实现方法及系统,该实现方法包括:获取下载服务的接口,通过最优下载方式调用接口进行下载;当最优下载方式下载失败时,根据其他普通下载方式调用接口进行下载;当出现普通下载方式下载成功时,停止下载,将最优下载方式和普通下载方式中权重值最大的下载方式作为新的最优下载方式。本发明实施例根据不同的接口对应的下载方式的权重值大小,依次根据最优下载方式或普通下载方式调用对应接口进行下载,保证了因接口的不同,选取最优的下载方式进行下载,快速完成该接口对应的下载任务,实现了通用、高效、可靠性高以及高扩展性的多元化高并发下载服务响应机制。
-
公开(公告)号:CN120088801A
公开(公告)日:2025-06-03
申请号:CN202510250209.1
申请日:2025-03-04
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本申请涉及电数字数据处理技术领域,特别是涉及一种基于多模态大模型的图表关键信息提取方法。该方法包括:获取初始提示文本;根据目标图表的类型和用户输入的问题的类型获取目标信息类型;获取所述目标信息类型对应的目标信息在目标图表中的位置信息;根据所述初始提示文本中与目标信息类型对应的提示文本以及目标信息类型目标信息类型对应的目标信息在目标图表中的位置信息构建目标提示文本;将目标提示文本和目标图表输入至多模态大模型,根据多模态大模型的输出获取目标图表的与用户输入的问题相关的关键信息。本发明能够根据任务需求精准提取图表的关键信息。
-
-
-
-
-
-
-
-
-