语料库构建方法、装置、电子设备及介质

    公开(公告)号:CN110532547A

    公开(公告)日:2019-12-03

    申请号:CN201910704739.3

    申请日:2019-07-31

    摘要: 本申请提供一种语料库构建方法及装置、一种电子设备以及一种计算机可读介质。其中,所述方法包括:接收到目标语料后,对所述目标语料进行分词处理,得到多个词单元,按照预先建立的同义词典,获取每个词单元对应的同义词单元组,所述同义词单元组包括与该词单元对应的至少一个同义词单元,基于所述词单元对应的同义词单元对至少一个词单元进行替换,得到所述目标语料的同义语料,将所述同义语料与所述目标语料关联后,构建语料库。由于是基于预先构建的同义词典进行同义词替换生成同义语料,使得扩充后的数据集更有利于模型训练,因此,相较于现有技术,能够在一定程度上实现有效文本生成,扩充数据集。

    一种语料意图预测方法、语料标注方法及电子设备

    公开(公告)号:CN110458207A

    公开(公告)日:2019-11-15

    申请号:CN201910669701.7

    申请日:2019-07-24

    IPC分类号: G06K9/62 G06F17/27 G06F16/35

    摘要: 本发明涉及自然语言处理技术,提供了一种语料意图预测方法,所述方法包含步骤:基于预处理后的样本,训练得到N个预测模型;分别基于各所述预测模型对待预测语料进行预测,得到N个预测结果;基于所述N个预测结果匹配预设规则,确定所述待预测语料对应的意图信息;其中,所述N为大于等于3的奇数;所述预设规则包含:若所述N个预测结果中存在相同预测结果,且相同的个数大于N/2,那么确定所述相同预测结果为所述待预测语料对应的意图信息。基于本实施例所提供的方法,实现对语料的意图预测,并提升了预测准确度,从而可大幅度的减少重复的人工处理工作。此外,本发明还提供了一种语料标注方法和电子设备。