- 专利标题: 一种文本差异识别方法、装置和计算机可读介质
-
申请号: CN202311447367.3申请日: 2023-11-02
-
公开(公告)号: CN117194614B公开(公告)日: 2024-01-30
- 发明人: 高晓欣 , 许元斌 , 刘永清 , 刘玉玺 , 王思宁 , 许海清 , 赵海翔 , 李刚 , 欧阳红 , 杨强 , 王宇 , 王明 , 焦艳斌 , 韩泽华 , 陈刚 , 卜娜 , 韩嘉佳 , 孙歆 , 颜拥 , 姚影
- 申请人: 北京中电普华信息技术有限公司 , 国网浙江省电力有限公司电力科学研究院 , 国网信息通信产业集团有限公司
- 申请人地址: 北京市昌平区嘉铭奥森产业园
- 专利权人: 北京中电普华信息技术有限公司,国网浙江省电力有限公司电力科学研究院,国网信息通信产业集团有限公司
- 当前专利权人: 北京中电普华信息技术有限公司,国网浙江省电力有限公司电力科学研究院,国网信息通信产业集团有限公司
- 当前专利权人地址: 北京市昌平区嘉铭奥森产业园
- 代理机构: 北京集佳知识产权代理有限公司
- 代理商 宋萌
- 主分类号: G06F16/33
- IPC分类号: G06F16/33 ; G06F40/211 ; G06F40/289 ; G06F40/30 ; G06N3/045 ; G06N3/0464 ; G06N3/08 ; G06F16/35 ; G06F18/22 ; G06F18/24
摘要:
本申请公开一种文本差异识别方法、装置和计算机可读介质,分别获取待分析文本的关键信息和标准文本的关键信息,将待分析文本的关键信息对应的第一语句和标准文本的关键信息对应的第二语句进行拼接得到嵌入向量,将嵌入向量输入预先训练好的BERT模型中,得到上下文编码向量,利用上下文编码向量得到第一语句和第二语句的匹配信息量,从而通过嵌入向量和匹配信息向量,得到第一语句和第二语句的语义相似度,通过预先训练的BERT模型可以得到准确率高的语义相似度,之后获取第一语句和第二语句的结构相似度,最后通过语义相似度和结构相似度,计算求得待分析文本和标准文本间的文本相(56)对比文件CN 112101043 A,2020.12.18CN 112182166 A,2021.01.05CN 114067308 A,2022.02.18CN 116701574 A,2023.09.05WO 2020140635 A1,2020.07.09吴炎;王儒敬.基于BERT的语义匹配算法在问答系统中的应用.仪表技术.2020,(06),全文.
公开/授权文献
- CN117194614A 一种文本差异识别方法、装置和计算机可读介质 公开/授权日:2023-12-08