属性词识别及其层次构建方法、装置、设备及存储介质

    公开(公告)号:CN109492214B

    公开(公告)日:2023-09-19

    申请号:CN201710813362.6

    申请日:2017-09-11

    IPC分类号: G06F40/284

    摘要: 本发明提供一种属性词识别方法及装置,包括:获取评论语料的名词词表;获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;根据各词的所述预测上位词向量确定种子词的属性词。该方法及装置,仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以确定与种子词相关的属性词,从而降低了人力资源消耗量。本发明还提供一种与上述属性词识别方法及装置对应的属性词的层次构建方法及装置,以及一种计算机设备及计算机存储介质。

    属性词识别及其层次构建方法、装置、设备及存储介质

    公开(公告)号:CN109492214A

    公开(公告)日:2019-03-19

    申请号:CN201710813362.6

    申请日:2017-09-11

    IPC分类号: G06F17/27

    摘要: 本发明提供一种属性词识别方法及装置,包括:获取评论语料的名词词表;获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;根据各词的所述预测上位词向量确定种子词的属性词。该方法及装置,仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以确定与种子词相关的属性词,从而降低了人力资源消耗量。本发明还提供一种与上述属性词识别方法及装置对应的属性词的层次构建方法及装置,以及一种计算机设备及计算机存储介质。

    一种数据标注方法及装置

    公开(公告)号:CN108536662B

    公开(公告)日:2022-04-12

    申请号:CN201810338034.X

    申请日:2018-04-16

    申请人: 苏州大学

    IPC分类号: G06F40/169

    摘要: 本发明公开了一种数据标注方法,包括:通过初始端获取不同初始用户输入的目标数据的初始标注信息;判断获取到的初始标注信息是否一致;若否,则将获取到的初始标注信息传输至第一审核端,通过第一审核端获取第一审核用户根据获取到的初始标注信息输入的目标数据的第一审核标注信息,并将第一审核标注信息确定为目标数据的最终标注信息并存储。由此当多个标注人员对于同一数据的标注结果存在差异时,由标注专家或者权威标注专家快速确定该数据的最佳标注结果,提高了数据标注的效率和准确率,有利于提高标注人员的业务水平和库存标注信息的准确率。相应地,本发明公开的一种数据标注装置、设备及计算机可读存储介质也同样具有上述技术效果。

    基于序列标注建模的多粒度分词方法及系统

    公开(公告)号:CN107729312B

    公开(公告)日:2021-04-20

    申请号:CN201710790736.7

    申请日:2017-09-05

    申请人: 苏州大学

    发明人: 张民 李正华 龚晨

    IPC分类号: G06F40/284 G06N3/04

    摘要: 本发明涉及一种基于序列标注建模的多粒度分词方法与系统,提供了一种采用机器学习的方式获取多粒度标签序列的方法及系统,本发明所述的方法,包括:将至少一种单粒度标注数据集中的句子分别转化为遵守其他n‑1种分词规范的分词序列,将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,根据预定的编码方法以及多粒度分词层次结构,得到每一个句子的每一个字的多粒度标签,进而得到每一个句子的多粒度标签序列;基于所述的包含句子和对应多粒度标签序列的数据集,通过训练序列标注模型,得到多粒度序列标注模型。本发明首次提出了多粒度分词的概念,能够快速、自动的获取多粒度分词层次结构。

    一种基于多标注数据的依存句法分析模型训练方法及装置

    公开(公告)号:CN112232024A

    公开(公告)日:2021-01-15

    申请号:CN202011089840.1

    申请日:2020-10-13

    申请人: 苏州大学

    摘要: 本申请公开了一种基于多标注数据的依存句法分析模型训练方法,包括:获取词序列以及多种标注结果;将词序列输入依存句法分析模型,得到弧得分和标签得分;根据目标损失函数,计算弧得分和标签得分相对于多种标注结果的损失值;通过迭代训练,以最小化损失值为目的,调整依存句法分析模型的模型参数,以实现模型训练。可见,该方法能够根据目标损失函数计算模型输出结果相对于全部标注结果的损失值,并据此完成对模型的迭代训练,实现了充分利用全部标注数据中的有效信息的目的,提升了模型的依存句法分析能力。此外,本申请还提供了一种基于多标注数据的依存句法分析模型训练装置、设备及可读存储介质,其技术效果与上述方法相对应。

    基于多级词典的分词方法、装置、设备及可读存储介质

    公开(公告)号:CN112214994A

    公开(公告)日:2021-01-12

    申请号:CN202011079701.0

    申请日:2020-10-10

    申请人: 苏州大学

    摘要: 本申请公开了一种基于多级词典的分词方法,该方法采用至少两个词典以辅助分词模型进行分词,在对字符进行表示的时候,不仅生成常规的向量表示,还生成该字符在至少两个词典中的特征表示,最终根据向量表示和特征表示确定该字符的成词标签。该方法通过区分不同词的地位和重要性,从而提升整体方案的分词性能,提升领域适应能力和分词准确性。此外,本申请还提供了一种基于多级词典的分词装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应。

    多粒度分词标注数据自动获取方法及系统

    公开(公告)号:CN107818079A

    公开(公告)日:2018-03-20

    申请号:CN201710791701.5

    申请日:2017-09-05

    申请人: 苏州大学

    发明人: 李正华 张民 龚晨

    IPC分类号: G06F17/27

    CPC分类号: G06F17/2775

    摘要: 本发明涉及一种多粒度分词标注数据自动获取方法及系统,为了能够准确、快速、自动的获得多粒度分词标注数据而设计。本发明选择n种不同规范的单粒度分词标注数据集,将至少一种单粒度分词标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列,被转化后的句子对应的n种不同规范的分词序列为该句子的多粒度分词结果;合并每一个句子的多粒度分词结果,形成多粒度分词标注数据集。本发明首次提出了多粒度分词的概念;使用耦合序列标注模型进行不同规范间单粒度分词标注数据的转换,从而获取多粒度分词标注数据。

    基于序列标注建模的多粒度分词方法及系统

    公开(公告)号:CN107729312A

    公开(公告)日:2018-02-23

    申请号:CN201710790736.7

    申请日:2017-09-05

    申请人: 苏州大学

    发明人: 张民 李正华 龚晨

    IPC分类号: G06F17/27 G06N3/04

    CPC分类号: G06F17/277 G06N3/049

    摘要: 本发明涉及一种基于序列标注建模的多粒度分词方法与系统,提供了一种采用机器学习的方式获取多粒度标签序列的方法及系统,本发明所述的方法,包括:将至少一种单粒度标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列,将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,根据预定的编码方法以及多粒度分词层次结构,得到每一个句子的每一个字的多粒度标签,进而得到每一个句子的多粒度标签序列;基于所述的包含句子和对应多粒度标签序列的数据集,通过训练序列标注模型,得到多粒度序列标注模型。本发明首次提出了多粒度分词的概念,能够快速、自动的获取多粒度分词层次结构。

    一种基于神经网络的中文分词模型的训练方法

    公开(公告)号:CN109800298B

    公开(公告)日:2023-06-16

    申请号:CN201910085499.3

    申请日:2019-01-29

    申请人: 苏州大学

    摘要: 本发明公开了一种基于神经网络的中文分词模型的训练方法,为多种分词规范设置相应的语料特征向量,在获取多种分词规范的训练语料后,根据字的嵌入向量和语料特征向量确定字的向量表示,最后将文本句中各个字的向量表示输入中文分词模型,得到预测结果并据此调整模型参数,以完成训练。可见,该方法无需改变模型结构,只需在字的向量表示中增加相应的语料特征向量,并利用该向量表示对模型进行训练,不仅实现了扩充训练语料的目的,而且能够让模型学习不同分词规范之间的共性,从而达到提升单一分词规范下的分词性能的目的。此外,本发明还提供了一种基于神经网络的中文分词模型的训练装置、设备及计算机可读存储介质,其作用与上述方法相对应。

    基于树形循环神经网络的自动树库转化方法及系统

    公开(公告)号:CN108628829B

    公开(公告)日:2022-03-15

    申请号:CN201810366795.6

    申请日:2018-04-23

    申请人: 苏州大学

    摘要: 本发明涉及一种基于树形循环神经网络的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于树形循环神经网络的自动树库转化方法,包括:基于双向树形循环神经网络TreeLSTM,得到词wi、词wi、词wa的隐藏层输出向量将隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量循环神经网络BiSeqLSTM顶层输出的输出向量分别与表示向量拼接起来,作为感知器MLP的输入,感知器萃取出句法相关信息;利用双仿射计算词wi和词wj的目标端依存弧分值。本发明充分利用源端句法树,刻画两种标注规范的对应规律为建立高质量树有监督转化模型提供了必要的数据支持。