一种问题分类方法及系统

    公开(公告)号:CN105045924A

    公开(公告)日:2015-11-11

    申请号:CN201510531001.3

    申请日:2015-08-26

    IPC分类号: G06F17/30

    CPC分类号: G06F16/353

    摘要: 本发明公开了一种问题分类方法及系统,包括:获取第一预设量的第一训练文本和第二预设量的第二训练文本,第一训练文本已提供问题类型,第二训练文本未提供问题类型;利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个第二训练文本的问题类型;确定第一训练文本和第二训练文本为训练文本,将训练文本进行分词处理,得到分别与每个训练文本对应的训练词组;利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大熵分类器;利用最大熵分类器对待测词组进行分类,得到与待测词组对应的待测文本的问题类型。由此,不需确定大量训练文本的问题类型,无需耗费大量人力,且对待测词组进行分类得到的结果准确率较高。

    一种音乐分类方法及装置

    公开(公告)号:CN104573114A

    公开(公告)日:2015-04-29

    申请号:CN201510057162.3

    申请日:2015-02-04

    申请人: 苏州大学

    IPC分类号: G06F17/30 G06K9/62

    摘要: 本申请提供一种音乐分类方法及装置,通过利用预先构建的每个基分类器分别对待分类音乐的相应音乐内容进行分类,得到每个基分类器的分类结果(该分类结果中包括待分类音乐的相应音乐内容含有不同情绪类别的后验概率),并将各个基分类器的分类结果依据情绪类别进行融合,得到最终分类结果,进而根据最终分类结果对待分类音乐进行情绪判断,确定待分类音乐含有的情绪类别。本申请通过利用预先创建的基分类器对待分类音乐的音乐内容的检索,实现了对待分类音乐的情绪类别的有效划分。

    一种中文分词方法、装置、电子设备及存储介质

    公开(公告)号:CN112380854B

    公开(公告)日:2024-03-01

    申请号:CN202011288208.X

    申请日:2020-11-17

    申请人: 苏州大学

    IPC分类号: G06F40/284

    摘要: 本发明提供了一种中文分词方法、装置、电子设备及存储介质,包括步骤:获取待处理文本序列,待处理文本序列中包括多个依次排列的字符;提取待处理文本序列中每个字符对应的特征向量,得到一个特征向量组;将特征向量组中每个特征向量映射为一个二维向量,其中,二维向量包括第一维值和第二维值;通过第一维值和第二维值确定对应字符间隔是否为词边界。该方法将中文字词的多分类问题简化到词边界的两分类问题,即该字符间隔是词边界和不是词边界,这样系统在对待处理文本序列进行分词时,计算量将大大减少,所消耗的时间自然大大缩短,从而提高整个中文分词处理的工作效率。

    基于BERT的自适应分层输出的中文分词方法

    公开(公告)号:CN113095079A

    公开(公告)日:2021-07-09

    申请号:CN202110617100.9

    申请日:2021-06-03

    申请人: 苏州大学

    摘要: 本申请涉及一种基于BERT的自适应分层输出的中文分词方法,属于中文信息处理技术领域。该方法包括:对已标注的样本数据进行预处理,得到预处理后的文本序列和标签序列;将预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和预处理后的标签序列对网络模型进行监督训练,得到主干模型;冻结主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和预处理后的标签序列对分类器进行监督训练,得到蒸馏模型;根据预设的速度调节方法,使用蒸馏模型对输入数据生成中文分词结果。相较于传统的BERT模型,可在不损失精度甚至提升精度的情况下,缩短模型推理时间。

    一种主客观分类器构建方法和系统

    公开(公告)号:CN104268134B

    公开(公告)日:2017-04-19

    申请号:CN201410508281.1

    申请日:2014-09-28

    申请人: 苏州大学

    IPC分类号: G06F17/28 G06F17/30

    摘要: 本发明公开的主客观分类器构建方法和系统,在着眼于对问题进行训练的同时,还着眼于对问题的答案进行训练,分别在问题和答案两类文本上构建基分类器,后续通过对两个基分类器进行融合,得到最终的主客观分类器。可见,本发明在主客观分类中加入了答案分类,通过结合答案特征对问题分类进行补正、校准,实现了基于问题与答案互补的主客观分类,规避了因问题训练样本的歧义性而导致分类器准确率低的弊端,提高了利用主客观分类器对问题进行分类的准确率,进而提升了问答系统的性能。

    一种主客观分类器构建方法和系统

    公开(公告)号:CN104268134A

    公开(公告)日:2015-01-07

    申请号:CN201410508281.1

    申请日:2014-09-28

    申请人: 苏州大学

    IPC分类号: G06F17/28 G06F17/30

    摘要: 本发明公开的主客观分类器构建方法和系统,在着眼于对问题进行训练的同时,还着眼于对问题的答案进行训练,分别在问题和答案两类文本上构建基分类器,后续通过对两个基分类器进行融合,得到最终的主客观分类器。可见,本发明在主客观分类中加入了答案分类,通过结合答案特征对问题分类进行补正、校准,实现了基于问题与答案互补的主客观分类,规避了因问题训练样本的歧义性而导致分类器准确率低的弊端,提高了利用主客观分类器对问题进行分类的准确率,进而提升了问答系统的性能。

    一种具有时间适应性的分类方法及装置

    公开(公告)号:CN106126751A

    公开(公告)日:2016-11-16

    申请号:CN201610685180.0

    申请日:2016-08-18

    申请人: 苏州大学

    IPC分类号: G06F17/30

    CPC分类号: G06F16/355 G06F16/35

    摘要: 本申请公开一种具有时间适应性的分类方法和装置,所述方法通过将已标注的历史样本集作为训练样本训练一基础分类器,并基于基础分类器采用迭代方式对现阶段的预定未标注样本集进行标注,在此基础上,结合利用所述历史样本集及现阶段已标注的样本,来训练得到一目标分类器,后续可利用该目标分类器对待测样本进行分类。由于在训练目标分类器时,向历史样本集中添加了现阶段的样本,从而使得在利用已标注的历史样本训练分类器时还结合考虑了现阶段样本的特征,进而使得最终训练得出的分类器能够适应现阶段样本的分类任务,具有较高的时间适应性,且由于充分利用已标注的历史样本来预测现阶段样本的类别标签,从而大大减少了现阶段样本的标注工作。

    一种情感与非情感问题的分类方法及系统

    公开(公告)号:CN105205044A

    公开(公告)日:2015-12-30

    申请号:CN201510531003.2

    申请日:2015-08-26

    IPC分类号: G06F17/27

    摘要: 本发明公开了一种情感与非情感问题的分类方法及系统,该方法包括:抓取作为训练样本的问题语料;参考预设的情感类问题分类规则,对作为训练样本的问题语料进行类别标签标注;利用标注后的作为训练样本的问题语料,构建情感问题分类器;向构建得到的情感问题分类器输入作为测试样本的问题语料,并利用情感问题分类器输出的类别标签,确认作为测试样本的问题语料的情感类别。以上技术方案能够对自动问答系统中问题语料的情感与非情感问题进行分类,达到了自动问答系统能够更好、更准确地对问题进行回答的目的。

    一种问题分类方法及装置

    公开(公告)号:CN105183808A

    公开(公告)日:2015-12-23

    申请号:CN201510530887.X

    申请日:2015-08-26

    IPC分类号: G06F17/30 G06K9/62

    CPC分类号: G06F16/3329 G06K9/6278

    摘要: 本发明公开了一种问题分类方法及装置,该方法包括:将待分类问题输入至预先建立的分类器中,所述分类器为对多组已知类别的训练样本集进行训练得到的,包括主观类别、客观类别分别在所述训练样本集中出现的概率以及每个特征属性对主观类别、客观类别的条件概率;通过所述分类器分别确定所述待分类问题的每个特征属性对主观类别以及客观类别的条件概率;分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率;将所述第一后验概率以及第二后验概率中较大值对应的类别作为所述待分类问题所属的类别。本发明所提供的问题分类方法及装置,能够实现对输入的问题的主客观类别分类,具有较高的分类准确率。

    基于BERT的自适应文本分类方法及装置

    公开(公告)号:CN113220892A

    公开(公告)日:2021-08-06

    申请号:CN202110658382.7

    申请日:2021-06-15

    申请人: 苏州大学

    IPC分类号: G06F16/35 G06N3/08

    摘要: 本申请涉及一种基于BERT的自适应文本分类方法及装置,属于中文信息处理技术领域,包括:获取语料样本数据并对语料样本数据进行预处理;构建预设网络模型;将所述预处理后的样本数据输入预设的网络模型,并使用预设的损失函数进行监督训练,得到分类模型;设置所述分类模型的输出阈值,得到设置后的分类模型,所述输出阈值控制分类结果的提前输出,所述设置后的分类模型用于对输入的文本进行分类。相较于传统的BERT模型,可在不损失精度的情况下,缩短模型推理时间。