-
公开(公告)号:CN115270771B
公开(公告)日:2023-01-17
申请号:CN202211219267.0
申请日:2022-10-08
IPC: G06F40/232 , G06N3/08
Abstract: 本发明涉及自然语言理解领域,公开了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,在多模态语言模型进行中文拼写纠错的基础上,为模型设计了一个细粒度的发音预测的辅助任务,并且为辅助任务设置一个自适应权重,可以引导模型正确地利用发音信息帮助中文拼写纠错;本发明还设计一种有约束的迭代策略,在能够解决具有连续错别字的困难样本的同时,也能一定程度上避免过度纠正的问题。
-
公开(公告)号:CN113378565B
公开(公告)日:2022-11-04
申请号:CN202110542573.7
申请日:2021-05-18
Applicant: 北京邮电大学
IPC: G06F40/289 , G06F40/216 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本申请提供一种多源数据融合的事件分析方法、装置、设备及介质,方法包括:获取第一数据源产生的当前文本,并对当前文本进行预处理得到目标文本;根据历史事件集,判断目标文本是已知事件文本还是未知事件文本;根据事件关键词搜索除第一数据源以外的其他数据源产生的相关文本;根据预设的事件热度预测模型对目标文本进行事件热度预测,得到对应的事件热度值;根据预设的摘要抽取模型对目标文本进行摘要抽取,得到对应的事件摘要;将目标文本及其对应的事件关键词、数据源、相关文本、事件热度值和事件摘要关联存储于历史事件集中。能够从多数据源对热点舆情事件进行检测和追踪,综合多维特征抽取摘要并预测事件热度,分析当前热点舆情事件。
-
公开(公告)号:CN113239926B
公开(公告)日:2022-10-25
申请号:CN202110671289.X
申请日:2021-06-17
Applicant: 北京邮电大学
IPC: G06V10/22 , G06V20/62 , G06V10/40 , G06V10/774 , G06V10/764 , G06K9/62 , G06Q50/00
Abstract: 基于对抗的多模态虚假信息检测模型涉及虚假信息检测技术领域,解决了现有虚假信息伪装则检测器检测常出现错误的问题,该装置包括视觉特征提取模块、多模态预训练模块、协同视觉‑文本多头注意力模块和对抗训练模块;多模态预训练模块用于得到多融合的文本序列特征、视觉序列特征和图文内容特征;协同视觉‑文本多头注意力模块用于得到多模态线索不同层次关系的文本内容特征和视觉内容特征;对抗训练模块用于从文本、视觉和图文角度对抗训练模型以提高鲁棒性。本发明可以捕捉信息数据的多模态线索之间元素级别和模态级别的关系,充分挖掘线索之间的隐藏联系;使得多模态预训练模块能够直接应用于虚假信息检测中。
-
公开(公告)号:CN113378565A
公开(公告)日:2021-09-10
申请号:CN202110542573.7
申请日:2021-05-18
Applicant: 北京邮电大学
IPC: G06F40/289 , G06F40/216 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本申请提供一种多源数据融合的事件分析方法、装置、设备及介质,方法包括:获取第一数据源产生的当前文本,并对当前文本进行预处理得到目标文本;根据历史事件集,判断目标文本是已知事件文本还是未知事件文本;根据事件关键词搜索除第一数据源以外的其他数据源产生的相关文本;根据预设的事件热度预测模型对目标文本进行事件热度预测,得到对应的事件热度值;根据预设的摘要抽取模型对目标文本进行摘要抽取,得到对应的事件摘要;将目标文本及其对应的事件关键词、数据源、相关文本、事件热度值和事件摘要关联存储于历史事件集中。能够从多数据源对热点舆情事件进行检测和追踪,综合多维特征抽取摘要并预测事件热度,分析当前热点舆情事件。
-
公开(公告)号:CN112711948A
公开(公告)日:2021-04-27
申请号:CN202011530521.X
申请日:2020-12-22
Applicant: 北京邮电大学
IPC: G06F40/295 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种中文句子的命名实体识别方法,包括:将中文字符序列输入识别模型,由识别模型通过字符嵌入层将中文字符序列转换为字向量并输出到识别模型中的卷积网络,卷积网络对每个字向量进行卷积运算得到局部语义向量并输出到识别模型中的自适应结合层,自适应结合层对字符的局部语义向量进行注意力计算后与对应字向量拼接得到表征向量并输出到识别模型中的序列建模网络,序列建模网络对字符的表征向量进行隐层建模并将建模得到的隐层向量输出到识别模型中的标签推理层计算字符的隐层向量对应的标签。通过卷积网络提取字符的局部语义信息后与潜在词基于字词间注意力实现字词信息融合,从而实现潜在词信息的利用,避免词边界错误传递的问题。
-
公开(公告)号:CN112711948B
公开(公告)日:2022-11-11
申请号:CN202011530521.X
申请日:2020-12-22
Applicant: 北京邮电大学
IPC: G06F40/295 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种中文句子的命名实体识别方法,包括:将中文字符序列输入识别模型,由识别模型通过字符嵌入层将中文字符序列转换为字向量并输出到识别模型中的卷积网络,卷积网络对每个字向量进行卷积运算得到局部语义向量并输出到识别模型中的自适应结合层,自适应结合层对字符的局部语义向量进行注意力计算后与对应字向量拼接得到表征向量并输出到识别模型中的序列建模网络,序列建模网络对字符的表征向量进行隐层建模并将建模得到的隐层向量输出到识别模型中的标签推理层计算字符的隐层向量对应的标签。通过卷积网络提取字符的局部语义信息后与潜在词基于字词间注意力实现字词信息融合,从而实现潜在词信息的利用,避免词边界错误传递的问题。
-
公开(公告)号:CN115270771A
公开(公告)日:2022-11-01
申请号:CN202211219267.0
申请日:2022-10-08
IPC: G06F40/232 , G06N3/08
Abstract: 本发明涉及自然语言理解领域,公开了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,在多模态语言模型进行中文拼写纠错的基础上,为模型设计了一个细粒度的发音预测的辅助任务,并且为辅助任务设置一个自适应权重,可以引导模型正确地利用发音信息帮助中文拼写纠错;本发明还设计一种有约束的迭代策略,在能够解决具有连续错别字的困难样本的同时,也能一定程度上避免过度纠正的问题。
-
公开(公告)号:CN114565002A
公开(公告)日:2022-05-31
申请号:CN202111314525.9
申请日:2021-11-08
Applicant: 北京邮电大学
Abstract: 本申请提供了一种基于行为与注意力机制的异常行为检测方法、系统及计算机介质,获取用户行为,并提取行为序列特征以及行为统计特征;融合行为序列特征以及行为统计特征,得到行为融合特征;将行为融合特征输入注意力机制的LSTM网络进行训练,得到异常行为检测模型;将待检测用户行为输入异常行为检测模型,得到异常行为检测结果。本申请使用用户历史行为与注意力机制相结合的技术手段来实现对不同用户行为模式的识别,最终实现更高精度和准确性的检测模型来降低一部分组织或企业因内部用户异常行为而造成的威胁以及损失。
-
公开(公告)号:CN113239926A
公开(公告)日:2021-08-10
申请号:CN202110671289.X
申请日:2021-06-17
Applicant: 北京邮电大学
Abstract: 基于对抗的多模态虚假信息检测模型涉及虚假信息检测技术领域,解决了现有虚假信息伪装则检测器检测常出现错误的问题,该装置包括视觉特征提取模块、多模态预训练模块、协同视觉‑文本多头注意力模块和对抗训练模块;多模态预训练模块用于得到多融合的文本序列特征、视觉序列特征和图文内容特征;协同视觉‑文本多头注意力模块用于得到多模态线索不同层次关系的文本内容特征和视觉内容特征;对抗训练模块用于从文本、视觉和图文角度对抗训练模型以提高鲁棒性。本发明可以捕捉信息数据的多模态线索之间元素级别和模态级别的关系,充分挖掘线索之间的隐藏联系;使得多模态预训练模块能够直接应用于虚假信息检测中。
-
-
-
-
-
-
-
-