-
公开(公告)号:CN113095858A
公开(公告)日:2021-07-09
申请号:CN202110497356.0
申请日:2021-05-07
IPC分类号: G06Q30/00 , G06F16/335 , G06F16/35 , G06F40/194 , G06F40/279 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本发明为解决没有考虑对文本信息的过滤及涉诈类别的分类导致存在识别准确率和效率低的问题,提出一种涉诈短文本识别方法,包括以下步骤:获取待识别的短文本,对所述短文本中的正常短文本进行过滤,得到疑似涉诈短文本数据集;将所述疑似涉诈短文本数据集输入神经网络模型中提取语义特征;根据所述疑似涉诈短文本数据集中字符的拼音和笔顺与预设的涉诈关键词的相似度对所述疑似涉诈短文本数据集进行特征抽取得到人工特征,并基于预设的涉诈关键词进行硬匹配,得到硬匹配特征;将所述语义特征、人工特征和硬匹配特征进行特征融合后通过多分类算法进行建模训练,生成用于诈骗短文本识别的分类器,输出得到涉诈短文本识别结果。
-
公开(公告)号:CN114398581B
公开(公告)日:2024-11-05
申请号:CN202210056971.2
申请日:2022-01-18
IPC分类号: G06F16/958 , G06F16/903 , G06F40/216 , G06F40/284 , G06V30/42 , G06V30/18
摘要: 本发明提出一种诈骗网站的识别方法及系统,包括:采集诈骗网站和官方网站的网页数据,构建碰撞数据库和比对数据库;判断待识别网站是否存在入口页面,若存在入口页面则利用碰撞数据库的数据下载待识别网站的页面图片;提取待识别网站的页面图片中的文字和图片特征,将所述文字和图片特征与比对数据库进行比对,分别判断待识别网站是否为诈骗网站;本发明考虑到诈骗网站利用入口页面来规避一般的诈骗网站检测的特点,对待识别网站进行入口页面判断,且构建了碰撞数据库,绕过待识别网站的入口页面并获取待识别网站的页面图片,利用待识别网站的页面图片,与基于官网网站的网页数据构建的比对数据进行比对,提升了诈骗网站的识别效果。
-
公开(公告)号:CN114398581A
公开(公告)日:2022-04-26
申请号:CN202210056971.2
申请日:2022-01-18
IPC分类号: G06F16/958 , G06F16/903 , G06F40/216 , G06F40/284 , G06K9/62 , G06V30/42 , G06V30/18
摘要: 本发明提出一种诈骗网站的识别方法及系统,包括:采集诈骗网站和官方网站的网页数据,构建碰撞数据库和比对数据库;判断待识别网站是否存在入口页面,若存在入口页面则利用碰撞数据库的数据下载待识别网站的页面图片;提取待识别网站的页面图片中的文字和图片特征,将所述文字和图片特征与比对数据库进行比对,分别判断待识别网站是否为诈骗网站;本发明考虑到诈骗网站利用入口页面来规避一般的诈骗网站检测的特点,对待识别网站进行入口页面判断,且构建了碰撞数据库,绕过待识别网站的入口页面并获取待识别网站的页面图片,利用待识别网站的页面图片,与基于官网网站的网页数据构建的比对数据进行比对,提升了诈骗网站的识别效果。
-
公开(公告)号:CN114267333A
公开(公告)日:2022-04-01
申请号:CN202111509949.0
申请日:2021-12-10
IPC分类号: G10L15/00 , G10L15/06 , G06F40/126 , G06F40/242
摘要: 本发明公开了一种混合双语语音识别方法及系统,所述方法包括如下步骤:数据处理步骤,包括:对一定量的目标双语音频数据和目标双语文本语料执行BPE共享词典制作、数据增广和特征提取操作,为后端网络训练提供有效数据输入;Encoder‑Decoder训练步骤,包括:对所述数据处理步骤获得的有效数据采用Transformer结构训练语音识别器。本发明涉及双语混合连续语音识别技术领域。根据输入的目标语种的单语语音数据、双语混合语音数据或者双语混杂语音数据,自动转写出语音的内容信息。
-
公开(公告)号:CN117556889A
公开(公告)日:2024-02-13
申请号:CN202311537400.1
申请日:2023-11-17
IPC分类号: G06N3/098 , G06F21/62 , G06F21/60 , G06F18/24 , G06F18/213 , G06N3/048 , G06N3/0464 , G06N3/044
摘要: 本发明公开的层次多标签场景的联邦学习方法,在层次多标签场景下通过获取到的标签类型构建有向无环图,并记录各客户端标签类型所在的有向无环图的层次,根据样本数据的特征和有向无环图来构建特征处理模型,其特征处理模型可获取不同层次的激活值,且各客户端可以通过自身所在层次获得对应层次的激活值,从而能够支撑后续的计算流程;然后通过计算无标签激活值的伪标签交叉熵损失,保证训练数据中有标签和无标签数据均有梯度回传,从而保护数据隐私,另外,通过计算相邻层次之间的相关性图的均方差损失,低层次客户端得以指导高层次客户端的参数优化,达到联邦学习的效果,从而提升了联邦学习在层次多标签场景下的安全可用性。
-
-
-
-