一种基于大数据的互联网假新闻识别方法

    公开(公告)号:CN117034905A

    公开(公告)日:2023-11-10

    申请号:CN202310985688.2

    申请日:2023-08-07

    摘要: 本发明涉及自然语言处理技术领域,具体涉及一种基于大数据的互联网假新闻识别方法,包括:获取互联网新闻数据并进行预处理得到新闻文本数据集;采用贪婪策略对新闻文本数据集进行重复事件检测得到多个原始事件图;为每一个原始事件图设置相应的节点特征、边特征和簇特征,得到初始事件图;构造Motif特征提取器,并采用初始事件图进行训练;根据训练好的Motif特征提取器构建图模型,并采用初始事件图进行训练;将待识别互联网新闻输入训练好的图模型,输出待识别互联网新闻的真假判别结果;本发明对虚假信息进行早期检测并及时阻断其传播,极大降低虚假新闻带来的危害,营造清朗的网络舆论空间。

    用于自然语言处理的基于网络的学习模型

    公开(公告)号:CN111316280B

    公开(公告)日:2023-11-07

    申请号:CN201880054571.X

    申请日:2018-07-12

    发明人: S.扬

    IPC分类号: G06F40/20 G06F40/40

    摘要: 提供了用于自然语言处理的基于网络的学习模型的系统和方法。信息可以是被存储在存储器中的关于用户与网络内容的交互的信息。此外,可以捕获对用户发出的声音言语的数字记录。该声音言语可以基于所存储的用户交互信息被解释。用户的意图可以基于所述解释被识别,并且可以基于所识别的意图来进行预测。该预测可以进一步对应于所选工作流。

    一种基于预训练模型的文本摘要生成方法和装置

    公开(公告)号:CN116932743A

    公开(公告)日:2023-10-24

    申请号:CN202310857864.4

    申请日:2023-07-13

    摘要: 本发明涉及机器学习技术领域,具体为一种基于预训练模型的文本摘要生成方法和装置,包括以下步骤:收集大规模语言模型微调相关的数据集;大语言模型相关训练数据的前期处理;基于数据处理模块得到训练数据;基于模型训练模块得到的模型,对输入的任何中文文本生成具体的摘要信息;有益效果为:本发明提出的基于预训练模型的文本摘要生成方法和装置,引入时间信息,生成包含时间信息的摘要,更能反映文本信息的变化和演变;大规模语言模型的引入,可以更好的理解文本内容,生成的摘要具有更高的准确度和灵活性;构建的包含时间的样本,有效的克服了大规模语言模型生成摘要的偏差,使得生成的摘要信息更加有针对性和实用性。

    一种基于协同过滤与深度学习的多注意力推荐方法

    公开(公告)号:CN113792810B

    公开(公告)日:2023-09-26

    申请号:CN202111102648.6

    申请日:2021-09-21

    发明人: 刘鑫强 李卫疆

    摘要: 本发明涉及一种基于协同过滤与深度学习的多注意力推荐方法,属于自然语言处理中的推荐算法领域。本发明包括:输入层,词嵌入层,局部上下文注意力层,多头注意力融合层,相似注意力层,融合决策层。输入层将用户信息文本进行文本处理作为词嵌入层的输入,词嵌入层将数据转化为低维稠密的词向量数据,局部上下文注意力层挖掘向量局部特征与上下文特征,多头注意力融合层利用协同过滤中拆分的评分隐向量作为key融入多头注意力,挖掘浅层的评分向量与评论向量之间深层关联特征,相似注意力层运用欧式距离计算用户与物品之间的相似得分,融合决策层将训练的用户特征与评分特征利用FM模型特征组合的能力,提高模型的对用户评分预测效果。

    用于自然语言处理的方法、设备和介质

    公开(公告)号:CN116796724A

    公开(公告)日:2023-09-22

    申请号:CN202310309764.8

    申请日:2023-03-27

    摘要: 本公开的实施例涉及一种用于自然语言处理的方法,包括:针对所获取目标语料执行预处理,从而获取经预处理的语料;将经预处理的语料执行分词化处理,以获取用于生成型预训练变换(生成型预训练变换)模型的分词样本;将所获取的同一批次的分词样本分配到不同计算设备上执行所述生成型预训练变换模型的训练,从而获取对应于每个进程的梯度计算结果;以及基于所获取的梯度计算结果,将所述生成型预训练变换模型中关于同一分词样本的不同变换(transformer)层分配到不同计算设备上用以执行所述生成型预训练变换模型的训练,从而获取经训练的多层生成型预训练变换模型,以便至少基于经训练的多层生成型预训练变换模型生成目标自然语言序列。

    基于LLaMA模型解决职业教育机器自主学习方法和装置及设备

    公开(公告)号:CN116776855A

    公开(公告)日:2023-09-19

    申请号:CN202310769100.X

    申请日:2023-06-27

    发明人: 谢智盛 王蓉

    摘要: 本发明公开了基于LLaMA模型解决职业教育机器自主学习方法和装置及设备。其中,方法包括:获取不同格式的文本数据;构建基于文本数据的LLAMA模型,并对文本数据中的知识点及考点进行识别;基于识别的知识点及考点构建知识图谱;基于构建的知识图谱持续自动生成考题;基于持续自动生成的考题对LLAMA模型进行训练;根据训练后的LLAMA模型,来对文本数据中的关键知识点和考试重点进行精确提取。本发明能够通过阅读和分析课本,自动地理解和识别关键知识点和考试重点,甚至可以生成考题。这种自主学习能力是现有技术所缺乏的,它不仅可以使AI系统变得更加智能,也可以更好地适应不断变化的教育环境。

    非结构化文本的机器理解
    88.
    发明授权

    公开(公告)号:CN109478204B

    公开(公告)日:2023-09-15

    申请号:CN201780031054.6

    申请日:2017-05-17

    IPC分类号: G06F40/20

    摘要: 本文所描述的是用于提供自然语言理解系统的系统和方法,该自然语言理解系统采用两阶段过程以用于文本的机器理解。第一阶段指示可能回答问题的一个或多个文本的段落中的单词。第一阶段输出针对该问题的候选答案集合,以及针对每个候选答案的正确性的第一概率。第二阶段通过将每个候选答案插入到问题中来形成一个或多个假设,并确定每个假设与文本中的每个句子之间是否存在语义关系。第二处理电路装置生成针对每个候选答案的正确性的第二概率,并将第一概率与第二概率组合,以产生被用来对候选答案进行排序的分数。具有最高分数的候选答案被选择作为预测的答案。

    语音转写方法、系统、电子设备和存储介质

    公开(公告)号:CN116665675A

    公开(公告)日:2023-08-29

    申请号:CN202310913545.0

    申请日:2023-07-25

    发明人: 孔欧

    摘要: 本申请提供一种语音转写方法、系统、电子设备和存储介质,所述方法包括:获取待转写源语音,并将所述待转写源语音输入到至少三个通道;在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量;将所有通道提取的特征向量交叉融合,以生成融合后的特征向量;将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本。本申请采用端到端模型,实现了语音转写和文本纠错的一体化处理,大大减少了处理时间和资源消耗;提高了纠错效果和准确率;实现了快速迭代和优化;有效避免了错误累积和误差传递的问题,提高了最终的转写结果的准确性和可靠性。