-
公开(公告)号:CN110532547A
公开(公告)日:2019-12-03
申请号:CN201910704739.3
申请日:2019-07-31
申请人: 厦门快商通科技股份有限公司
摘要: 本申请提供一种语料库构建方法及装置、一种电子设备以及一种计算机可读介质。其中,所述方法包括:接收到目标语料后,对所述目标语料进行分词处理,得到多个词单元,按照预先建立的同义词典,获取每个词单元对应的同义词单元组,所述同义词单元组包括与该词单元对应的至少一个同义词单元,基于所述词单元对应的同义词单元对至少一个词单元进行替换,得到所述目标语料的同义语料,将所述同义语料与所述目标语料关联后,构建语料库。由于是基于预先构建的同义词典进行同义词替换生成同义语料,使得扩充后的数据集更有利于模型训练,因此,相较于现有技术,能够在一定程度上实现有效文本生成,扩充数据集。
-
-
公开(公告)号:CN110458207A
公开(公告)日:2019-11-15
申请号:CN201910669701.7
申请日:2019-07-24
申请人: 厦门快商通科技股份有限公司
摘要: 本发明涉及自然语言处理技术,提供了一种语料意图预测方法,所述方法包含步骤:基于预处理后的样本,训练得到N个预测模型;分别基于各所述预测模型对待预测语料进行预测,得到N个预测结果;基于所述N个预测结果匹配预设规则,确定所述待预测语料对应的意图信息;其中,所述N为大于等于3的奇数;所述预设规则包含:若所述N个预测结果中存在相同预测结果,且相同的个数大于N/2,那么确定所述相同预测结果为所述待预测语料对应的意图信息。基于本实施例所提供的方法,实现对语料的意图预测,并提升了预测准确度,从而可大幅度的减少重复的人工处理工作。此外,本发明还提供了一种语料标注方法和电子设备。
-
-