基于非监督的文本去噪方法、系统、电子设备及存储介质

    公开(公告)号:CN112560457B

    公开(公告)日:2024-03-12

    申请号:CN202011398468.2

    申请日:2020-12-04

    发明人: 吴明平

    摘要: 本发明提出一种基于非监督的文本去噪方法、系统、电子设备及存储介质,其方法技术方案包括文本收集步骤,根据预设的主题词收集包含所述主题词的文本数据;相似度计算步骤,计算所述主题词与一词向量数据库中目标词的相似度,并获取所述相似度满足一阈值要求的所有所述目标词作为主题相关词;噪声去除步骤,计算所述文本数据与所述主题相关词的匹配度,并将所述匹配度不满足一阈值要求的所述文本数据作为噪声去除。本发明采用计算文本内容与主题词相关程度的方法,避免了传统规则统计方法可能产生的误判,并可以解决监督算法识别未知新分类的难题。

    一种词向量表示的获取方法、装置、设备及可读介质

    公开(公告)号:CN112069822B

    公开(公告)日:2024-09-06

    申请号:CN202010962795.X

    申请日:2020-09-14

    IPC分类号: G06F40/295 G06N3/08

    摘要: 本发明涉及一种词向量表示的获取方法、装置、设备及可读介质,所述获取方法包括:构建语料库对应的词语依赖图谱;将所述词语依赖图谱的文本特征输入适用于有向图的图神经网络模型中进行训练,得到词向量图结构模型;其中,所述适用于有向图的图神经网络模型中是对图神经网络模型的目标节点的出入链的嵌入表示、出链邻居节点的特征向量表示和入链邻居节点的特征向量表示进行构建得到的;利用所述词向量图结构模型对所述词语依赖图谱进行图嵌入处理,确定所述词语依赖图谱中的每个词的词向量表示。本发明不仅可以将词向量图结构模型应用于无向图得到无向图的词向量表示,还可以应用于有向图以得到有向图的词向量表示。

    发布人群的确定方法、装置、可读存储介质及电子设备

    公开(公告)号:CN111859156B

    公开(公告)日:2024-02-02

    申请号:CN202010774773.0

    申请日:2020-08-04

    IPC分类号: G06F16/9535

    摘要: 本申请提供了发布人群的确定方法、装置、可读存储介质及电子设备,获取每个待发布人群总体点击过的每一个历史推送资源的第一结构特征序列;基于每个待发布人群中每一个历史推送资源的第一结构特征序列与待发布资源的第二结构特征序列之间的相似度,确定每个待发布人群与待发布资源之间的第一匹配度;将第一匹配度大于预设匹配度阈值的至少一个待发布人群,确定为待发布所述待发布资源的至少一个目标发布人群。这样,综合考虑待发布资源的结构特征与待发布人群的历史浏览记录的第一匹配度,确定与待发布资源匹配的目标发布人群,可以提高待发布资源与待发布人群的匹配性,有助于提高待发布资源推送的准确性,以及待发布资源被浏览的概率。