一种基于不平衡多源数据的情感分类方法及系统

    公开(公告)号:CN110134947B

    公开(公告)日:2021-03-26

    申请号:CN201910307654.1

    申请日:2019-04-17

    IPC分类号: G06F40/30 G06N3/08

    摘要: 本发明提出一种基于不平衡多源数据的情感分类方法,包括:获取来自多个数据源的训练数据,其中训练数据包含多条文本数据,每条文本数据具有情感类型标签和其对应的数据源;按数据源对训练数据进行分类,以集合每个数据源对应的文本数据作为第一数据集,根据每个第一数据集中各情感类型标签的数量,统计每个第一数据集中情感类型的标准差,选择标准差最小的第一数据作为预训练集,其余第一数据集作为后续训练集;以预训练集训练神经网络模型的权值直到损失函数收敛,输出神经网络模型作为预分类模型,以后续训练集继续训练预分类模型直到损失函数收敛,输出预分类模型作为最终分类模型;将待情感分类文本数据输入最终分类模型,得到其情感类型。

    一种获取搜索引擎搜索结果的方法和装置

    公开(公告)号:CN106970962A

    公开(公告)日:2017-07-21

    申请号:CN201710170469.3

    申请日:2017-03-21

    IPC分类号: G06F17/30

    CPC分类号: G06F16/95 G06F16/951

    摘要: 本发明公开了一种获取搜索引擎搜索结果的方法和装置。所述方法包括:输入待测试的搜索引擎、关键词和页码;将关键词和页码输入搜索引擎对应的搜索引擎模板,获得关键词和页码对应的一级页面地址;将一级页面地址输入到预设的浏览器中,通过浏览器访问一级页面地址,并获取一级页面地址对应一级页面信息和二级页面信息。本发明采用自动化的方式获取搜索引擎的搜索结果,通过预先设置搜索引擎模板的方式,自动获得一级页面地址,并将一级页面地址输入预设的浏览器中,进而通过访问该一级页面地址,自动获得所需的一级页面信息和二级页面信息。通过本发明可以有效提升搜索验证效率和准确率,提高搜索效果以及获得搜索结果的效率。

    基于遮挡语言模型的文本纠错方法、系统、设备及介质

    公开(公告)号:CN117391072A

    公开(公告)日:2024-01-12

    申请号:CN202311173762.7

    申请日:2023-09-12

    摘要: 本发明提供了一种基于遮挡语言模型的文本纠错方法、系统、设备及介质,能够通过无监督学习大量语料文本的方式,完成对文本的智能纠错,不需要人工标记的大量语料。本发明在不需要准备专门的平行语料的情况下完成中文文本纠错的任务,只需要提供大量中文语言的文本给语言模型自动进行训练即可,采用无监督学习大量语言文本的方式拓展了平行语料范围有限造成的局限性,不需要人工标记的大量语料。本发明采用遮挡语言模型的方式进行文本纠错,其过程中通过无监督学习大量语料文本的方式,完成对文本的智能纠错,应用于针对中文文本纠错的系统中,发现并纠错文本中在输入等过程中产生的错误。

    基于学习模型的谣言检测方法、系统及存储介质

    公开(公告)号:CN109471932A

    公开(公告)日:2019-03-15

    申请号:CN201811415780.0

    申请日:2018-11-26

    摘要: 本发明公开了一种基于学习模型的谣言检测方法、系统及存储介质,其中检测方法包括:构建新闻语料库;构建博文语料库;对新闻语料库中的数据进行模型训练,获得第一分类器模型;对博文语料库中的数据进行特征提取,获得训练特征,利用训练特征进行模型训练获得第二分类器模型;利用第一分类器模型和第二分类器模型对社交平台中的博文数据进行谣言检测。本发明通过对新闻数据中的谣言和非谣言数据进行采集构建新闻语料库,再进行模型训练获得第一训练模型;再对社交平台中的谣言和非谣言数据进行采集构建博文语料库,再进行模型训练获得第二训练模型,最后利用两个训练模型对社交平台中的数据进行谣言检测,使最终的检测结果更加准确可靠。