地址相似度计算方法、装置、设备及存储介质

    公开(公告)号:CN118296405A

    公开(公告)日:2024-07-05

    申请号:CN202410719381.2

    申请日:2024-06-05

    发明人: 尹民 程艾 刘亚庆

    摘要: 本发明公开了一种地址相似度计算方法、装置及存储介质,方法包括:利用BERT模型,从多字段地址数据中提取出语料特征,并转化为结构化标准地址的文本特征向量;根据不同字段在地址中的重要程度以及BERT模型训练中的特征表现,为各字段设定相应的权值,以便在相似度计算阶段综合考虑各部分的影响;根据文本特征向量利用余弦相似度方法计算中文文本以及其对应拼音的相似度,以双维度衡量地址间的相似性;基于中文文本以及其对应拼音的相似度,确定多字段文本的综合相似度,并设定阈值判断两个多字段文本是否相似;本发明方法不仅提升了在面对多字段地址匹配任务时的成功率,而且有效地解决了长文本中有效地址提取准确率低的问题。