用户识别方法、装置、可读存储介质及电子设备

    公开(公告)号:CN115238798A

    公开(公告)日:2022-10-25

    申请号:CN202210892527.4

    申请日:2022-07-27

    Abstract: 本公开涉及一种用户识别方法、装置、可读存储介质及电子设备,涉及互联网技术领域。该方法包括:将第一用户的第一身份标签,以及第一用户的用户基本特征、用户发文特征与用户传播特征作为训练集,来对不同的分类器进行训练;将第二用户的用户基本特征、用户发文特征与用户传播特征作为测试集,来对该不同的分类器分别进行测试,得到该不同的分类器的测试结果;根据该测试结果与该第二用户的第二身份标签,确定该不同的分类器识别用户的精准率;从多个精准率中,筛选出目标精准率所对应的目标分类器来对不同用户的身份进行识别。使用本公开提出的方法可以识别出社媒机器人,避免设备机器人对正常人类用户的行为造成干扰。

    语义等价性判断方法和装置

    公开(公告)号:CN110543549B

    公开(公告)日:2022-02-22

    申请号:CN201910818133.2

    申请日:2019-08-30

    Abstract: 本申请公开了语义等价性判断方法及装置。该方法包括:根据第一语句和第二语句生成第一语句所对应的多个向量以及第二语句所对应的多个向量;将第一语句所对应的多个向量与第二语句所对应的多个向量进行匹配,并根据匹配结果生成相似度表示;将相似度表示拼接后通过模型的相似度表示层进行筛选;将筛选结果输入模型的自注意层,并通过自注意层计算自注意力值,自注意力值反映第一语句和第二语句的内部结构;根据自注意力值判断所述第一语句与所述第二语句之间的语义是否等价。由于该方法对多个句子之间语义是否等价的判断结果,相对于现有技术准确性更高,因此能够用于解决现有技术中的问题。

    显示任务流的方法、装置、可读存储介质及电子设备

    公开(公告)号:CN111352686B

    公开(公告)日:2023-10-03

    申请号:CN202010144858.0

    申请日:2020-03-04

    Abstract: 本公开涉及一种显示任务流的方法、装置、可读存储介质及电子设备。方法包括:响应于接收到任务流显示请求,获取目标图形基础库;获取任务流中每个任务的属性信息,属性信息包括时间信息、状态信息和席位信息;按照时间信息、状态信息、席位信息与所述目标图形基础库中的三维坐标轴中每一坐标轴的对应关系,在电子设备的显示界面中显示任务流。这样,将任务流的时间信息、状态信息和席位信息以三维坐标轴的方式显示在电子设备的显示界面中,不仅可以显示出任务流在时间和状态维度下的变化,还可以显示出任务流在不同执行人之间的传递,以实现全流程监督把控,便于用户获知任务流中每个任务的上下游状态,进而及时做出决策,提高任务完成的效率。

    专利布局分析方法、装置、计算机设备及存储介质

    公开(公告)号:CN115829406A

    公开(公告)日:2023-03-21

    申请号:CN202211596043.1

    申请日:2022-12-13

    Abstract: 本申请涉及一种专利布局分析方法、装置、计算机设备及存储介质,涉及专利分析技术领域。该方法包括:获取n个目标专利的专利数据;该目标专利是基于目标搜索条件获得的专利;对各个目标专利的专利数据进行解析,获得各个目标专利的专利特征信息;该专利特征信息中包含目标专利对应的cpc分类号;获取各个cpc分类号指示cpc分类号的核心性的第一分值;获取各个cpc分类号用于指示cpc分类号的跨领域性的第二分值;基于各个cpc分类号的第一分值与各个cpc分类号的第二分值,从n个目标专利的cpc分类号中确定目标cpc分类号,以通过目标cpc分类号对专利布局进行指导;通过上述方法,可以提高对专利布局的指导效果。

    一种半监督学习结合自定义词典的命名实体识别方法

    公开(公告)号:CN109858041B

    公开(公告)日:2023-02-17

    申请号:CN201910172675.7

    申请日:2019-03-07

    Abstract: 本发明公开了一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:S1、用未标注数据预训练Bi‑LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;S4、加入用户自定义词典;S5、使用维特比解码求出序列中的最大概率路径。本发明将预训练的语言模型的输出和第一层双向LSTM的输出作拼接,并作为第二层双向LSTM的输入可以减少标注语料的使用,同时在切换领域时可以只更换新领域的标注语料。另外,在预测的时候通过自定义词典的设置,可以更改进入维特比解码的发射矩阵,从而达到自定义词典的效果。

    账号资源管理装置、方法及数据采集系统、方法

    公开(公告)号:CN111083136B

    公开(公告)日:2022-03-08

    申请号:CN201911275230.8

    申请日:2019-12-12

    Abstract: 本公开涉及一种账号资源管理装置、方法及数据采集系统、方法。本公开提供的技术方案,对于每个账号使用不同的固定登录IP、登录Header信息进行模拟登录,在登录后将获得的Cookie信息与所述登录IP和登录Header信息关联存储,以模拟一个用户在一个地方使用固定浏览器上网,避免出现一个账号、cookie对应多个IP及单个IP被大量用户使用的情况,从而避免受到浏览拦截限制。并且,每一账号登录模块与一下载解析服务节点对应且与一组登录IP对应,从而可以通过控制每个下载解析服务节点对应的登录IP分配,以实现控制多个下载解析服务节点的负载均衡。

    一种基于大数据技术的人口基础数据库

    公开(公告)号:CN110134667B

    公开(公告)日:2021-08-10

    申请号:CN201910342834.3

    申请日:2019-04-26

    Abstract: 本发明公开了一种基于大数据技术的人口基础数据库,包括DataX组件、Phoenix层和HIVE人口数据库;DataX组件用于实现数据的导入和导出,Phoenix层用于对外提供API数据查询服务;HIVE人口数据库用于接收、处理和存储来自外部的政务系统的人口数据,具体包括STG缓冲层、FDM基础层、IDM整合层、ADM集市层。本发明使用大数据技术架构,大大提升了人口基础数据库的数据容量,提高了性能并且更加易于扩展。

    一种持续自学习的多语言神经机器翻译方法及存储介质

    公开(公告)号:CN117252212A

    公开(公告)日:2023-12-19

    申请号:CN202310690228.7

    申请日:2023-06-12

    Abstract: 本发明涉及多语言机器翻译技术,特别是一种持续自学习的多语言神经机器翻译方法及存储介质。主旨在于解决多语言机器翻译缺少持续自学习能力的问题,传统的多语言机器翻译方法在模型训练后缺乏有效的增量学习机制,导致难以对新的数据和任务进行迭代式训练和快速更新。主要方案包括利用大量的单语语料,将模型在多种语言的单语语料库上预训练一个序列到序列的机器翻译模型,并分批量的持续将新语种的数据融合已有语种的双语平行数据微调机器翻译模型,使得机器翻译模型利用已有语种的知识,不断加入学习新的低资源语种,持续自学习,实现在更多语种上的优化。

    身份数据的挖掘方法、装置、存储介质及电子设备

    公开(公告)号:CN116611948A

    公开(公告)日:2023-08-18

    申请号:CN202310440968.5

    申请日:2023-04-21

    Abstract: 本公开涉及一种身份数据的挖掘方法、装置、存储介质及电子设备,该方法包括:获取待识别视频数据的公开信息,公开信息包括视频发布时间和视频特征信息,确定播放待识别视频数据所需要的数据消耗量,根据数据消耗量和视频特征信息,确定待识别视频数据的视频原始大小,从网络详细记录中筛选视频发布时间以前与视频原始大小匹配的目标网络记录,根据目标网络记录,确定待识别视频数据对应视频发布者的身份数据。从而根据视频数据的公开信息计算视频的原始大小,从网络详细记录中筛选出与视频发布时间和原始大小相匹配的身份数据。基于用户的视频发布行为和网络详细记录,确定出视频发布者的真实身份数据。

Patent Agency Ranking