基于事件要素图的跨境民族文化事件检索方法及装置

    公开(公告)号:CN118585611A

    公开(公告)日:2024-09-03

    申请号:CN202410812343.1

    申请日:2024-06-21

    摘要: 本发明涉及基于事件要素图的跨境民族文化事件检索方法及装置,属于自然语言处理技术领域。跨境民族文化事件检索任务中用于查询的文本通常为某些事件的一些简短描述或关键词,但简短描述或关键词中存在的领域实体往往导致检索结果多为关于这些领域实体的科普性文本,造成跨境民族文化事件检索结果与查询事件相关度较低。针对以上问题,本发明提出了一种基于事件要素图的跨境民族文化事件检索方法,主要包括跨境民族文化事件数据构建及预处理、跨境民族文化事件要素图构建、基于事件要素图的跨境民族文化事件检索模型训练三部分,根据这三个功能模块制成基于事件要素图的跨境民族文化事件检索装置,本发明有效提升了跨境民族文化事件检索的效果。

    基于知识表示增强的低资源跨语言文本检索方法及装置

    公开(公告)号:CN116680420B

    公开(公告)日:2023-10-13

    申请号:CN202310961196.X

    申请日:2023-08-02

    摘要: 本发明涉及基于知识表示增强的低资源跨语言文本检索方法及装置,属于自然语言处理技术领域。本发明包括:中文查询‑低资源文档及外部知识数据预处理、基于表示对齐增强和外部知识融合的低资源跨语言文本检索模型构建、基于表示对齐增强和外部知识融合的低资源跨语言文本模型训练、对中文‑低资源跨语言文本进行检索四部分构成。根据这四个部分功能模块化制成基于表示对齐增强和外部知识融合的低资源跨语言文本检索装置,能够有效地利用外部知识丰富查询文本的知识信息,增强对东南亚低资源跨语言文本的表示对齐能力和知识特征融合能力,从而达到提升低资源跨语言文本检索模型性能目的,具有重要的理论和实际应用价值。

    基于知识表示增强的低资源跨语言文本检索方法及装置

    公开(公告)号:CN116680420A

    公开(公告)日:2023-09-01

    申请号:CN202310961196.X

    申请日:2023-08-02

    摘要: 本发明涉及基于知识表示增强的低资源跨语言文本检索方法及装置,属于自然语言处理技术领域。本发明包括:中文查询‑低资源文档及外部知识数据预处理、基于表示对齐增强和外部知识融合的低资源跨语言文本检索模型构建、基于表示对齐增强和外部知识融合的低资源跨语言文本模型训练、对中文‑低资源跨语言文本进行检索四部分构成。根据这四个部分功能模块化制成基于表示对齐增强和外部知识融合的低资源跨语言文本检索装置,能够有效地利用外部知识丰富查询文本的知识信息,增强对东南亚低资源跨语言文本的表示对齐能力和知识特征融合能力,从而达到提升低资源跨语言文本检索模型性能目的,具有重要的理论和实际应用价值。

    融合关键词和语义特征的汉越文本相似度计算方法

    公开(公告)号:CN112257453B

    公开(公告)日:2022-02-22

    申请号:CN202011006911.7

    申请日:2020-09-23

    摘要: 本发明涉及融合关键词和语义特征的汉越文本相似度计算方法,属于自然语言处理技术领域。本发明包括步骤:提取汉语、越南语文章的关键词,将越南语关键词翻译为中文,计算出两篇文章中的共现关键词,得到词的相似信息;然后利用共现关键词抽取出与其紧密相关的句子进行拼接来表征文本,并去除无关的句子以压缩文本;再利用知识蒸馏训练出汉越BERT模型对压缩后的文本进行编码,以获得上下文语义特征;最后将词的相似信息和上下文语义特征融合实现文本相关性判断。本发明提升了汉‑越文本相似度计算的准确率。

    基于音节切分和词切分联合学习的多任务泰语分词方法

    公开(公告)号:CN112883726B

    公开(公告)日:2021-12-28

    申请号:CN202110079486.2

    申请日:2021-01-21

    摘要: 本发明涉及基于音节切分和词切分联合学习的多任务泰语分词方法。本发明包括:预处理泰语文本数据集;使用窗口化的方式选择泰语字符特征和字符类别特征作为特征输入;之后利用注意力机制获得丰富的上下文特征;最后输出层使用线性变换和Sigmoid函数去预测当前序列中的音节序列标签和词序列标签。本发明采用多任务学习的方式,它能够同时学习同一个句子在音节切分和词切分的序列标签,用音节切分辅助词切分,以提高模型泛化能力。本发明在InterTEST2010数据集上有更高的准确性,与DeepCut泰语分词模型相比,系统运行速度至少提高了1.6倍,为后续的文本分类、信息检索和机器翻译提供了支撑。

    基于知识图嵌入的涉案领域的半监督方面级情感分析方法

    公开(公告)号:CN112800229A

    公开(公告)日:2021-05-14

    申请号:CN202110163044.6

    申请日:2021-02-05

    摘要: 本发明涉及基于知识图嵌入的涉案领域的半监督方面级情感分析方法,属于自然语言处理技术领域。本发明包括步骤:从涉案微博事件中爬取了包含8个案例、276个涉案热点话题的涉案领域的微博评论5W+,首先利用少量标记数据进行数据增强,通过预训练得到涉案领域的BERT词嵌入和涉案领域的知识图词嵌入,然后将两种词嵌入按照比例拼接放入下游任务中,从而对特定方面的涉案微博评论进行极性的分类。本发明是实验过程中获得的一个最优的技术方案,构建的分类模型取得了较好的效果,在典型的涉案微博评论数据集上比基线模型分别提高了3.1%。

    基于热点词的司法领域热点事件发现方法

    公开(公告)号:CN111324801A

    公开(公告)日:2020-06-23

    申请号:CN202010096023.2

    申请日:2020-02-17

    摘要: 本发明涉及基于热点词的司法领域热点事件发现方法,属自然语言处理领域。本发明先对爬取的司法舆情新闻进行处理,通过HanLP工具分词并抽取舆情新闻中的舆情要素,然后通过对舆情要素进行词频统计得到热点词集合并建立热点词与舆情新闻的对应关系,接下来通过相似度计算系统对舆情新闻进行两两评估以决定归并与否,相似度计算系统包括三个子系统:基于舆情新闻正文要素统计的文本相似度计算系统、基于BERT的舆情标题相似度计算系统以及基于tf-idf的舆情标题相似度计算系统。在得到以上子系统的结果后,通过分别设置阈值的方式决定两条舆情文本是否属于同一热点事件。最后根据子系统的最终结果决定两条舆情是否为同一热点事件。

    面向司法领域的案件话题发现方法

    公开(公告)号:CN111309911A

    公开(公告)日:2020-06-19

    申请号:CN202010096028.5

    申请日:2020-02-17

    摘要: 本发明涉及面向司法领域的案件话题发现方法,属于自然语言处理技术领域。本发明首先从案件相关的舆情舆情中抽取舆情标题,经由bert模型编码后得到同等长度的语义向量,并且加入舆情舆情发布时间的约束,使用增量聚类的方式得到不同话题,然后使用每个话题下所有的舆情进行关键字提取,进行编码后用于话题合并,最终生成有效话题。本发明对于不同案件下的相关舆情舆情,可以生成准确的话题类别,为后续的话题表征等工作提供了强有力的支撑。

    基于迁移学习的缅语情感分析方法及装置

    公开(公告)号:CN110334187A

    公开(公告)日:2019-10-15

    申请号:CN201910613176.7

    申请日:2019-07-09

    摘要: 本发明涉及基于迁移学习的缅语情感分析方法及装置,属于自然语言处理技术领域。本发明首先对缅语词汇进行跨语言word embeddings表示,实现缅语文本到英语文本语义空间的映射;基于CNN和注意力机制的网络预训练英语情感分类模型;通过共享英语情感分类模型的神经网络层参数来学习跨语言情感特征,并迁移到缅语情感分类模型中来实现缅语情感分类;用有标记的缅语数据进行模型调优,最终实现缅语情感分类。并根据上述步骤功能模块化制成基于迁移学习的缅语情感分析装置,本发明对缅语句子实现了有效的情感分析,解决了缅语情感标记数据缺乏造成性能不佳的问题。