文本去重方法、装置、电子设备及计算机可读存储介质
摘要:
本发明涉及语音语义技术,揭露了一种文本去重方法,包括:获取多个待去重文本,将多个待去重文本汇集为语料库;对多个待去重文本进行分词得到文本分词;根据语料库构建文本分词对应的待去重文本的文本指纹;根据文本指纹对多个待去重文本进行重合去重,得到多个初步去重文本;对多个初步去重文本中各文本进行分句,得到每个初步去重文本的文本分句;计算每个文本分句间的重合字粒度;根据重合字粒度对多个初步去重文本进行范围去重,得到去重文本集。此外,本发明还涉及区块链技术,所述待去重文本可存储于区块链的节点。本发明还提出一种文本去重装置、电子设备以及计算机可读存储介质。本发明可以解决大量文本去重时效率和精确度不高的问题。
0/0