发明公开
- 专利标题: 语料相似检测方法、装置、智能终端及存储介质
-
申请号: CN202111447284.5申请日: 2021-11-30
-
公开(公告)号: CN114218918A公开(公告)日: 2022-03-22
- 发明人: 邓凌风 , 颜达森 , 刘敏 , 张艳 , 徐春香 , 余跃 , 曾炜
- 申请人: 鹏城实验室
- 申请人地址: 广东省深圳市南山区兴科一街2号
- 专利权人: 鹏城实验室
- 当前专利权人: 鹏城实验室
- 当前专利权人地址: 广东省深圳市南山区兴科一街2号
- 代理机构: 深圳市君胜知识产权代理事务所
- 代理商 温宏梅
- 主分类号: G06F40/194
- IPC分类号: G06F40/194 ; G06F40/289 ; G06F40/111
摘要:
本发明公开了语料相似检测方法、装置、智能终端及存储介质,其中,上述语料相似检测方法包括:获取输入文档集合;分别对上述输入文档集合中的各个输入文档进行分布式预处理,获取待检测编码文档集合,其中,上述分布式预处理包括字符剔除、分词和单词格式转换,上述待检测编码文档集合中包括多个待检测编码文档,上述待检测编码文档中的各个单词为整数类型的编码;基于上述待检测编码文档集合进行语料相似检测。与现有技术相比,本发明中在进行文档比较时,只需要分别对文档中的单词进行比较,且只需要进行整数类型的数据比较,有利于减少计算量、降低比较时间,提高语料相似检测的效率。