-
公开(公告)号:CN116976331A
公开(公告)日:2023-10-31
申请号:CN202210403930.6
申请日:2022-04-18
申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC分类号: G06F40/289 , G06F40/284 , G06F40/216 , G06N20/00 , G06N3/0464
摘要: 本发明提供一种文本数据的处理方法、装置及设备,方法包括:获得目标文本数据;对所述目标文本数据进行预处理,得到预处理结果;根据所述预处理结果,获得候选关键短语集合;获取所述候选关键短语集合中的候选关键短语的重要程度值、候选关键短语的位置信息得分以及候选关键短语的连贯性得分;根据候选关键短语的重要程度值、候选关键短语的位置信息得分以及候选关键短语的连贯性得分,获得所述目标文本数据的目标关键短语。本发明的方案可以提升文本数据中关键短语抽取的准确率。
-
公开(公告)号:CN118550997A
公开(公告)日:2024-08-27
申请号:CN202310208292.7
申请日:2023-02-27
申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC分类号: G06F16/332 , G06F16/34 , G06F18/214
摘要: 本发明公开了一种文章生成方法、装置、设备及存储介质。其中,所述方法包括:获取第一数据;将所述第一数据输入至第一模型,得到第二数据;所述第一数据表征待处理的标题文本,所述第二数据表征第一摘要段落;将所述第一数据和所述第二数据输入至第二模型,得到第三数据;所述第三数据表征第一大纲文本;所述第一大纲文本包括多个一级标题;将所述第一数据、所述第二数据和所述第三数据输入至第三模型,得到第四数据;所述第四数据表征与各个一级标题分别对应的段落;利用所述第一数据、所述第二数据、所述第三数据和所述第四数据,生成文章。
-
公开(公告)号:CN114722258A
公开(公告)日:2022-07-08
申请号:CN202110001476.7
申请日:2021-01-04
申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
发明人: 边增亚
IPC分类号: G06F16/951 , G06F16/9537 , G06F16/958 , G06F9/48 , G06N3/04 , G06N3/08
摘要: 本发明提供一种网络爬虫调度方法、装置、设备及可读存储介质,涉及网络爬虫技术领域,该网络爬虫调度方法,包括获取目标网站在目标时刻前第一时间段内的历史信息发布数据;基于历史信息发布数据与第一时间段,获取信息发布数据与目标时间段之间的对应关系,第一时间段包括多个目标时间段;基于对应关系预测目标网站在目标时刻后第二时间段内的预测信息发布数据;基于目标时间段和预测信息发布数据确定调度频率;基于调度频率执行网络爬虫调度。可以解决现有的网络爬虫调度方法无法在节省硬件资源的同时提升网络爬取的时效性的问题。
-
公开(公告)号:CN118797057A
公开(公告)日:2024-10-18
申请号:CN202410245014.3
申请日:2024-03-04
申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC分类号: G06F16/35 , G06F16/33 , G06F40/289 , G06N3/0455 , G06N3/0464 , G06N20/10 , G06N3/0442
摘要: 本申请公开了一种模型训练方法、分类方法、装置、第一设备、第二设备、存储介质和计算机程序产品。其中,方法包括:针对所有样本数据中的每个样本数据,利用样本数据的真实标签,确定样本数据的伪标签,并确定与样本数据相关的第一数据和第二数据,所述第一数据属于真实标签对应的第一类别,所述第二数据属于所述伪标签对应的第二类别;针对所有样本数据N个类别中的每个类别,确定类别的特征,N为大于或等于2的整数;利用所有样本数据、每个样本数据的伪标签、与每个样本数据相关的第一数据和第二数据以及N个类别的特征确定第一损失函数;利用所述第一损失函数,训练第一模型,所述第一模型用于对待分类的数据进行分类。
-
公开(公告)号:CN116912864A
公开(公告)日:2023-10-20
申请号:CN202310255423.7
申请日:2023-03-10
申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC分类号: G06V30/412 , G06V30/413 , G06F40/279
摘要: 本申请公开了一种文本识别方法、装置、电子设备及可读存储介质,属于自然语言处理领域。本申请实施例的文本识别方法包括:获取N个待识别文本以及K个属于广告营销类的目标文本,所述N和K为大于1的整数;根据所述N个待识别文本和所述K个目标文本,构建图结构模型,并根据所述图结构模型进行迭代计算,获得每个所述待识别文本与所述K个目标文本的关系值;所述图结构模型中的节点表征所述待识别文本或所述目标文本,所述图结构模型中的边表征所述边对应的两节点所表征的文本之间的关系;根据每个待识别文本与所述K个目标文本的关系值,判定每个待识别文本是否属于广告营销类。由此,可以准确识别广告营销类的文本内容。
-
公开(公告)号:CN116346377A
公开(公告)日:2023-06-27
申请号:CN202111588944.1
申请日:2021-12-23
申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC分类号: H04L9/40 , G06F16/951 , G06F21/60
摘要: 本发明提供一种反爬虫方法、装置及介质,涉及计算机技术领域,该方法包括:在获取到超文本标记语言HTML页面的请求后,响应该请求,返回处理后的HTML页面;其中,处理后的HTML页面的文档对象化模型DOM结构中存在隐藏节点,和/或处理后的HTML页面存在加密的静态属性。本发明的方案能够解决现有的反爬虫方案仅可拦截低级爬虫请求的问题。
-
公开(公告)号:CN117009505A
公开(公告)日:2023-11-07
申请号:CN202211203590.9
申请日:2022-09-29
申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC分类号: G06F16/35 , G06F16/33 , G06F18/214 , G06F18/2413 , G06N3/044 , G06N3/048 , G06F40/211 , G06F40/289
摘要: 本发明公开了一种观点识别方法、装置、设备及存储介质。其中,所述方法包括:获取第一测试样本和第二测试样本;将所述第一测试样本和所述第二测试样本输入预先训练的目标模型,以通过所述目标模型进行样本差异和样本观点预测,得到对应的样本识别结果;所述样本识别结果包括所述第一测试样本和所述第二测试样本是否存在差异的对比结论、所述第一测试样本对应的观点识别结果和所述第二测试样本对应的观点识别结果;其中,所述目标模型基于训练正样本集合和训练负样本集合,对用于计算样本距离的第一模型进行训练得到;所述第一模型基于所述训练正样本集合和所述训练负样本集合,对预测模型进行训练得到。
-
公开(公告)号:CN116361625A
公开(公告)日:2023-06-30
申请号:CN202111587728.5
申请日:2021-12-23
申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC分类号: G06F18/20 , G06F40/289 , G06F16/33 , G06F16/35 , G06F18/22
摘要: 本发明提供一种新兴技术的预测方法、装置及终端设备,涉及通信技术领域。该方法包括:根据文献数据获取候选短语集,所述文献数据包括论文数据和专利数据;获取所述候选短语集中目标短语的新颖性值以及影响力值;根据所述目标短语的新颖性值和影响力值,确定新兴技术主题。本发明实施例的方案,基于短语级别的技术主题语义描述,提高了对新兴技术主题预测结果的一致性、完整性以及语义的可解释性;并且将论文数据和专利数据同时作为文献数据,保证了文献数据的新颖性和高覆盖率;根据对候选短语集中短语的新颖性值以及影响力值的计算,得到针对新颖性和影响力的二维预测结果,提高了新兴技术预测的准确性。
-
公开(公告)号:CN116361446A
公开(公告)日:2023-06-30
申请号:CN202111598649.4
申请日:2021-12-24
申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC分类号: G06F16/34 , G06F40/289 , G06F40/216 , G06F18/22
摘要: 本发明提供一种文本摘要的生成方法、装置和电子设备,涉及自然语言处理领域。该方法包括:获取目标文档;根据所述目标文档,确定句子‑词语关系和词语‑词语关系的关联信息;根据所述关联信息,分别确定句子和词语的权重信息;根据所述句子和词语的权重信息,生成所述目标文档的目标摘要。本发明通过确定句子‑词语关系和词语‑词语关系的关联信息,能够更好地建立全文信息之间的关系,生成更能概括全文的摘要,采用本发明所述的方法,一方面能够同时提取文本摘要和关键词,另一方面能够取得更好的摘要与关键词抽取效果。
-
公开(公告)号:CN116910331A
公开(公告)日:2023-10-20
申请号:CN202211600556.5
申请日:2022-12-12
申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC分类号: G06F16/951 , G06F16/953 , G06F16/957 , G06F16/906 , G06F40/194 , G06F40/30
摘要: 本申请公开了一种请求的识别方法,该方法包括:获取用户设备发起的至少一个访问请求,并确定每个访问请求的主题;基于主题对至少一个访问请求进行聚类处理,得到至少一个主题簇;基于各个主题簇中的访问请求的数量,确定用户设备发起的访问请求所表征的行为类型;其中,行为类型用于表征用户设备的访问行为是否为自动抓取万维网信息的程序或者脚本的行为。本申请还公开了一种请求的识别装置、电子设备及计算机可读存储介质。
-
-
-
-
-
-
-
-
-