一种数据的筛选方法、系统、设备和存储介质
摘要:
本发明涉及人工智能技术领域,提供一种数据的筛选方法、系统、设备和存储介质,其方法包括:训练得到第一语言模型,计算第一语言模型的第一困惑度;根据所述第一困惑度将所述第一语言模型的第一训练集分类得到至少两个语句集合;根据所述语句集合进行分词训练得到至少两个第二语言模型;将至少两个所述第二语言模型进行组合得到第三语言模型,通过所述第三语言模型对目标语料进行筛选得到目标文本数据;方法能够减小无效训练数据量,减少了训练过程中产生的噪音;方法还提高模型识别结果的通畅性和准确率,可广泛应用于人工智能技术领域。
公开/授权文献
0/0