-
公开(公告)号:CN112200598B
公开(公告)日:2022-02-15
申请号:CN202010932388.4
申请日:2020-09-08
申请人: 北京数美时代科技有限公司
IPC分类号: G06Q30/02 , G06V20/62 , G06V10/764 , G06V10/40 , G06V10/82 , G06K9/62 , G06F40/30 , G06F16/35 , G06N3/04
摘要: 本发明公开了一种图片广告识别方法、装置、计算机设备。其中,所述方法包括:获取图片广告中的词嵌入特征,和提取该图片广告中的图嵌入特征,和基于该词嵌入特征和该图嵌入特征,采用多模态深度语义交互的神经网络方式,构建欺诈图片广告的二分类模型,以及根据该构建的欺诈图片广告的二分类模型,对图片广告进行是否是欺诈图片广告的识别。通过上述方式,能够实现提高对欺诈图片广告进行识别的准确率。
-
公开(公告)号:CN113537195B
公开(公告)日:2022-02-08
申请号:CN202110824501.1
申请日:2021-07-21
申请人: 北京数美时代科技有限公司
摘要: 本发明涉及图像文本识别技术领域,提供一种图像文本识别方法、系统和电子设备,采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作,得到多组上下文特征向量,即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系,然后进行后续的文本识别,得到包含待识别文本图像中的文本的字符串,字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本,且避免使用LSTM,在保证识别效率的同时,还能保证识别精度。
-
公开(公告)号:CN113537380A
公开(公告)日:2021-10-22
申请号:CN202110863334.1
申请日:2021-07-29
申请人: 北京数美时代科技有限公司
摘要: 本发明涉及一种色情图像识别方法、系统、存储介质和电子设备,所述方法包括:将待识别图像输入双分支训练的色情图像识别模型,得到每个分支对应的结果,其中,第一分支对应的结果包括至少一个第一色情标签,第二分支的结果只包括一个第二色情标签;根据第一分支对应的结果和第二分支对应的结果判断所述待识别图像是否为色情图像。待识别图像输入双分支训练的色情图像识别模型后,能够得到第一分支对应的结果和第二分支对应的结果,两个结果能够相互对比和验证,极大降低漏识别色情图像的概率。
-
公开(公告)号:CN112215690A
公开(公告)日:2021-01-12
申请号:CN202010932656.2
申请日:2020-09-08
申请人: 北京数美时代科技有限公司
摘要: 本发明公开了一种基于多关联网络的黑产团伙分析方法、装置、计算机设备。其中,所述方法包括:构建一层关联网络,和以该构建的一层关联网络为基础,建立多层关联网络,和根据该多层关联网络中各节点之间关系的紧密程度,对该多层关联网络进行分类,以及对该经分类后的多层关联网络进行网络定性,网络定性出黑产团伙关系。通过上述方式,能够通过网络定性出黑产团伙关系,能够实现在多实体、多层关联下发现黑产团伙关系。
-
公开(公告)号:CN113948065B
公开(公告)日:2022-07-08
申请号:CN202111020788.9
申请日:2021-09-01
申请人: 北京数美时代科技有限公司
IPC分类号: G10L15/06 , G10L15/22 , G10L15/26 , G06F40/211 , G06F40/216
摘要: 本发明公开了基于n‑gram模型的错误拦截词筛选方法及系统,涉及网络安全技术领域。该方法包括:获取基于特定标签下的拦截词拦截的音频转译文本数据;通过n‑gram模型对文本数据进行处理,从文本数据中筛选出特定标签中没有存储的数据作为回退信息;根据回退信息确定包含错误拦截词的句子。本发明适用于违禁词和敏感词的拦截,尤其是音频转译文本数据的违禁词和敏感词拦截,能够快速找到拦截错误的句子和错误的拦截词,后续可根据得到的错误拦截词对违禁词库进行完善和优化,从而提高对应拦截词的拦截准确率和整体的拦截准确率。
-
公开(公告)号:CN113888758B
公开(公告)日:2022-05-24
申请号:CN202111029153.5
申请日:2021-09-01
申请人: 北京数美时代科技有限公司
IPC分类号: G06V30/146 , G06V30/148 , G06V20/62 , G06V10/44 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于复杂场景中的弯曲文字识别方法和系统,涉及文字识别领域。该方法包括:基于文字分割模型检测待识别图片的第一文字区域,将所述第一文字区域中的非文字内容进行标记,去除所述第一文字区域中标记的非文字内容获得第二文字区域,将所述第二文字区域输入经卷积层改进后的CRNN模型,获得文字识别结果,基于文字分割模型的分割方法的优势在于相对于现有文字识别方案中的回归方法能够更准确地检测出弯曲文字,能够有效区分紧凑的文本行且有良好的处理速度。通过本方案能够准确识别自然场景中常出现的弯曲文字,有效提升OCR在自然场景中的识别字准确率。也提高了各类需要识别文字的应用效果。
-
公开(公告)号:CN113948087A
公开(公告)日:2022-01-18
申请号:CN202111068472.7
申请日:2021-09-13
申请人: 北京数美时代科技有限公司
IPC分类号: G10L15/26 , G10L15/08 , G10L25/51 , G06F40/216 , G06F16/683 , G06F16/65
摘要: 本发明涉及音频识别领域,尤其涉及一种语音标签判定方法、系统、存储介质及电子设备。该方法包括:获取开源词汇,形成开源词汇集;对相关场景下的文本进行切词处理,得到切词集;获取音频文件,对所述音频文件进行处理,得到高频词汇集;获取预设名单,对预设名单进行处理得到相关词汇集;对所述开源词汇集、切词集、高频词汇集以及所述相关词汇集进行并集处理,得到词汇表;根据所述词汇表对语音内容进行标签处理。本发明可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
-
公开(公告)号:CN113688695A
公开(公告)日:2021-11-23
申请号:CN202110885641.X
申请日:2021-08-03
申请人: 北京数美时代科技有限公司
摘要: 本发明涉及一种图片识别方法、系统、存储介质和电子设备,基于包括多个图片的图片集合,对添加有ADL层的深度卷积神经网络进行训练,得到中间图片识别模型,去除中间图片识别模型中的ADL层,得到图片识别模型,将待识别图片输入图片识别模型,得到识别结果,ADL层能够学习到较弱的特征,当待识别图片为遮挡图片时,能够识别出遮挡图片中的较弱的特征,提高识别精度,保证识别结果的准确度,而且,不需要搜集大量的遮挡图片,节约时间和成本。另一方面,对自注意力图进行激活操作,生成重要性图,根据上一层的输出特征和重要性图所得到的特征图进行训练时,还能够保证非遮挡图片的识别精度。
-
公开(公告)号:CN113537195A
公开(公告)日:2021-10-22
申请号:CN202110824501.1
申请日:2021-07-21
申请人: 北京数美时代科技有限公司
摘要: 本发明涉及图像文本识别技术领域,提供一种图像文本识别方法、系统和电子设备,采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作,得到多组上下文特征向量,即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系,然后进行后续的文本识别,得到包含待识别文本图像中的文本的字符串,字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本,且避免使用LSTM,在保证识别效率的同时,还能保证识别精度。
-
公开(公告)号:CN115938351B
公开(公告)日:2023-08-15
申请号:CN202111069758.7
申请日:2021-09-13
申请人: 北京数美时代科技有限公司
IPC分类号: G10L15/06 , G10L15/26 , G06F40/216 , G06F40/289
摘要: 本发明涉及模型建立领域,尤其涉及ASR语言模型的构建方法、系统、存储介质及电子设备。该方法包括:步骤1,获取语音样本数据;步骤2,对所述语音样本数据进行基础处理,得到样本数据;步骤3,对所述样本数据进行字符清洗,得到清洗后的第一样本数据;步骤4,对所述第一样本数据进行变体替换,得到本体数据;步骤5,对所述本体数据进行频数统计,根据统计结果生成训练样本;步骤6,根据所述训练样本对ASR语言模型进行构建。通过该方法可以获取高质量的ASR语言模型的训练样本,基于训练样本得出的ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
-
-
-
-
-
-
-
-
-