-
公开(公告)号:CN111581970B
公开(公告)日:2023-01-24
申请号:CN202010396183.9
申请日:2020-05-12
申请人: 厦门市美亚柏科信息股份有限公司
IPC分类号: G06F40/289 , G06F40/30 , G06F40/126 , G06F40/216 , G06N3/048 , G06N3/09
摘要: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。
-
公开(公告)号:CN111143560B
公开(公告)日:2022-07-01
申请号:CN201911366859.3
申请日:2019-12-26
申请人: 厦门市美亚柏科信息股份有限公司
摘要: 本发明涉及一种短文本分类方法、终端设备及存储介质,该方法中包括:S1:采集多个文本数据并进行特征提取后组成训练集;S2:分别构建基于卷积神经网络和循环神经网络的多个分类模型,计算每个分类模型对训练集中各样本的输出概率;S3:构建三个模型集;S4:根据KS值筛选三个模型集中的两个合并为融合模型库I;S5:设定融合模型库I的样本预测值计算公式;S6:设定损失函数loss;S7:通过训练集对融合模型库I进行迭代训练,通过调整权重参数w1和w2,使得损失函数loss的值最小;S8:通过训练后的融合模型库I对待分类文本数据进行分类。本发明针对短文本数据稀疏、噪声大等问题,通过模型融合策略,有效提高模型应对新数据领域的适应能力。
-
公开(公告)号:CN111563379B
公开(公告)日:2022-12-02
申请号:CN202010396412.7
申请日:2020-05-12
申请人: 厦门市美亚柏科信息股份有限公司
IPC分类号: G06F40/289 , G06F40/242 , G06F40/30 , G06F16/35
摘要: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n‑grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
-
公开(公告)号:CN112214600A
公开(公告)日:2021-01-12
申请号:CN202011131344.8
申请日:2020-10-21
申请人: 厦门市美亚柏科信息股份有限公司
IPC分类号: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
摘要: 本发明公开了一种聊天文本特征分类方法、装置及存储介质,通过获对聊天文本进行预处理得到词向量,将词向量输入卷积网络层,分别计算生成聊天文本的局部特征向量,将局部特征向量连接形成上下文语义特征向量,将上下文语义特征向量输入深度卷积神经网络输出第一固定长度向量;将词向量和表示聊天文本中每个单词位置的位置向量组合形成联合词向量,联合词向量通过门限线性单元网络GLU,并结合多核Depthwise卷积网络层得到第二固定长度向量;将第一固定长度向量与第二固定长度向量连接得到多层次文本语义向量,将多层次文本语义向量输入全连接网络层计算输出向量;对输出向量使用softmax函数计算聊天文本的分类概率值,得到聊天文本所属的特征类别。
-
公开(公告)号:CN112214601B
公开(公告)日:2022-06-10
申请号:CN202011131358.X
申请日:2020-10-21
申请人: 厦门市美亚柏科信息股份有限公司
IPC分类号: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
摘要: 本发明公开了一种社交短文本情感分类方法、装置及存储介质,在自动分析和挖掘社交短文本的情感倾向时,先获取用户发表的文本,再抽取计算文本上下文情感特征值和先验极性情感特征值,使用Word2Vec等预训练词向量模型训练生成文本词向量表示,利用多窗口卷积操作,获取不同粒度的文本语义关系,使用多头自注意力网络,有效捕获和记忆文本较长距离上下文语义信息,同时避免循环神经网络无法并行计算的问题,多层卷积和池化组合从不同层次抽象文本情感语义表示,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述文本所包含的显式和隐式的情感语义特征,从而提高短文情感极性分析的性能。
-
公开(公告)号:CN112214601A
公开(公告)日:2021-01-12
申请号:CN202011131358.X
申请日:2020-10-21
申请人: 厦门市美亚柏科信息股份有限公司
IPC分类号: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
摘要: 本发明公开了一种社交短文本情感分类方法、装置及存储介质,在自动分析和挖掘社交短文本的情感倾向时,先获取用户发表的文本,再抽取计算文本上下文情感特征值和先验极性情感特征值,使用Word2Vec等预训练词向量模型训练生成文本词向量表示,利用多窗口卷积操作,获取不同粒度的文本语义关系,使用多头自注意力网络,有效捕获和记忆文本较长距离上下文语义信息,同时避免循环神经网络无法并行计算的问题,多层卷积和池化组合从不同层次抽象文本情感语义表示,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述文本所包含的显式和隐式的情感语义特征,从而提高短文情感极性分析的性能。
-
公开(公告)号:CN112214600B
公开(公告)日:2022-06-10
申请号:CN202011131344.8
申请日:2020-10-21
申请人: 厦门市美亚柏科信息股份有限公司
IPC分类号: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
摘要: 本发明公开了一种聊天文本特征分类方法、装置及存储介质,通过获对聊天文本进行预处理得到词向量,将词向量输入卷积网络层,分别计算生成聊天文本的局部特征向量,将局部特征向量连接形成上下文语义特征向量,将上下文语义特征向量输入深度卷积神经网络输出第一固定长度向量;将词向量和表示聊天文本中每个单词位置的位置向量组合形成联合词向量,联合词向量通过门限线性单元网络GLU,并结合多核Depthwise卷积网络层得到第二固定长度向量;将第一固定长度向量与第二固定长度向量连接得到多层次文本语义向量,将多层次文本语义向量输入全连接网络层计算输出向量;对输出向量使用softmax函数计算聊天文本的分类概率值,得到聊天文本所属的特征类别。
-
公开(公告)号:CN111581970A
公开(公告)日:2020-08-25
申请号:CN202010396183.9
申请日:2020-05-12
申请人: 厦门市美亚柏科信息股份有限公司
IPC分类号: G06F40/289 , G06F40/30 , G06F40/126 , G06F40/216 , G06N3/04
摘要: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。
-
公开(公告)号:CN111563379A
公开(公告)日:2020-08-21
申请号:CN202010396412.7
申请日:2020-05-12
申请人: 厦门市美亚柏科信息股份有限公司
IPC分类号: G06F40/289 , G06F40/242 , G06F40/30 , G06F16/35
摘要: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
-
公开(公告)号:CN111143560A
公开(公告)日:2020-05-12
申请号:CN201911366859.3
申请日:2019-12-26
申请人: 厦门市美亚柏科信息股份有限公司
摘要: 本发明涉及一种短文本分类方法、终端设备及存储介质,该方法中包括:S1:采集多个文本数据并进行特征提取后组成训练集;S2:分别构建基于卷积神经网络和循环神经网络的多个分类模型,计算每个分类模型对训练集中各样本的输出概率;S3:构建三个模型集;S4:根据KS值筛选三个模型集中的两个合并为融合模型库I;S5:设定融合模型库I的样本预测值计算公式;S6:设定损失函数loss;S7:通过训练集对融合模型库I进行迭代训练,通过调整权重参数w1和w2,使得损失函数loss的值最小;S8:通过训练后的融合模型库I对待分类文本数据进行分类。本发明针对短文本数据稀疏、噪声大等问题,通过模型融合策略,有效提高模型应对新数据领域的适应能力。
-
-
-
-
-
-
-
-
-