- 专利标题: 文本去重方法、装置、电子设备及计算机可读存储介质
-
申请号: CN202011637850.4申请日: 2020-12-31
-
公开(公告)号: CN112733537B公开(公告)日: 2024-10-22
- 发明人: 何友鑫 , 彭琛 , 汪伟
- 申请人: 平安科技(深圳)有限公司
- 申请人地址: 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
- 专利权人: 平安科技(深圳)有限公司
- 当前专利权人: 平安科技(深圳)有限公司
- 当前专利权人地址: 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
- 代理机构: 深圳市沃德知识产权代理事务所
- 代理商 高杰; 于志光
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/211 ; G06F40/194 ; G06F40/237
摘要:
本发明涉及语音语义技术,揭露了一种文本去重方法,包括:获取多个待去重文本,将多个待去重文本汇集为语料库;对多个待去重文本进行分词得到文本分词;根据语料库构建文本分词对应的待去重文本的文本指纹;根据文本指纹对多个待去重文本进行重合去重,得到多个初步去重文本;对多个初步去重文本中各文本进行分句,得到每个初步去重文本的文本分句;计算每个文本分句间的重合字粒度;根据重合字粒度对多个初步去重文本进行范围去重,得到去重文本集。此外,本发明还涉及区块链技术,所述待去重文本可存储于区块链的节点。本发明还提出一种文本去重装置、电子设备以及计算机可读存储介质。本发明可以解决大量文本去重时效率和精确度不高的问题。
公开/授权文献
- CN112733537A 文本去重方法、装置、电子设备及计算机可读存储介质 公开/授权日:2021-04-30