词库更新方法及装置
Abstract:
本发明实施例提供一种词库更新方法及装置,该方法包括:以若干通识语句样本和若干特定领域语句样本构成训练样本集合来进行分类模型的训练,在分类模型的输出侧获得由各训练样本分别对应的词语构成的词语集合。基于各训练样本的分类结果确定词语集合中各词语对分类模型分类正确率的贡献权重,从中选择出对分类模型分类正确率贡献程度最高的X个词语。将选出的X个词语分别与词频最高的M个词语进行发音相似度计算,根据发音相似度和预设阈值的比较结果确定X个词语对应的热词库。根据拼音相似度和预设阈值的比较结果从X个词语中选择出属于特定领域的热词,构成热词库,加入到原始识别词库中,从而提高在特定领域应用场景中对词语的识别效果。
Public/Granted literature
Patent Agency Ranking
0/0