语料相似检测方法、装置、智能终端及存储介质
摘要:
本发明公开了语料相似检测方法、装置、智能终端及存储介质,其中,上述语料相似检测方法包括:获取输入文档集合;分别对上述输入文档集合中的各个输入文档进行分布式预处理,获取待检测编码文档集合,其中,上述分布式预处理包括字符剔除、分词和单词格式转换,上述待检测编码文档集合中包括多个待检测编码文档,上述待检测编码文档中的各个单词为整数类型的编码;基于上述待检测编码文档集合进行语料相似检测。与现有技术相比,本发明中在进行文档比较时,只需要分别对文档中的单词进行比较,且只需要进行整数类型的数据比较,有利于减少计算量、降低比较时间,提高语料相似检测的效率。
0/0