-
公开(公告)号:CN113221542A
公开(公告)日:2021-08-06
申请号:CN202110348599.8
申请日:2021-03-31
Applicant: 国家计算机网络与信息安全管理中心 , 北京理工大学
IPC: G06F40/232 , G06F40/242 , G06F40/284
Abstract: 本发明涉及一种基于多粒度融合与Bert筛选的中文文本自动校对方法,属于自然语言处理技术领域;本发明通过结合字粒度与词粒度级别的校对模型,以期能够利用不同粒度级别的信息。字粒度模型采用集成规则生成候选集与Bert筛选的方法,词粒度采用传统方法,先构建候选集,然后使用N‑Gram模型计算句子困惑度取最佳候选。另外该方法还解决了多字少字等错误类型问题。实验结果验证了该方法能有效提高检错纠错的召回率,有效提升校对模型性能。对比现有技术,本发明规避了字粒度校对模型和词粒度校对模型带来的局限性,基于多粒度融合与Bert筛选通过两种粒度有效结合不同层次信息,通过N‑Gram LM打分与Bert进行筛选,能够有效提高错误的召回率和校对的准确率。
-
公开(公告)号:CN116186191A
公开(公告)日:2023-05-30
申请号:CN202210320305.5
申请日:2022-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 北京理工大学
Abstract: 本发明涉及基于多维信息的任务匹配方法,属于基于大数据智能分析与挖掘技术领域。本发明是结合文本处理、机器学习方法、线性模型、动态规划等方法对相应文本进行处理,从而对文本所含“价值”进行分析,并借助大数据的手段将人工主观文本分析变为自动化完成,提高系统找到匹配结果的效率。本发明采用多种大数据分析的思想和多路召回的思想,对于同一任务会召回多个表单,每一个表单进行同样的操作,设置不同的权重,最后多路交集,从而可以取到更加准确的筛选结果,大大提高了工作效率。
-
公开(公告)号:CN106980692A
公开(公告)日:2017-07-25
申请号:CN201710213302.0
申请日:2017-04-01
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K‑means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术,本发明考虑微博文本的内容指标,较全面而准确地反映了事件各方面的信息,具有很强的现实意义和实用价值。此外,本发明方法计算的时空耗费不高,易于模块化,可投入大规模的数据计算,具有较好的稳定性。
-
公开(公告)号:CN106940732A
公开(公告)日:2017-07-11
申请号:CN201710212983.9
申请日:2017-04-01
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种面向微博数据的疑似水军发现方法,属于计算机应用技术领域。本发明共分为以下六个步骤,分别为相关微博数据的采集;数据预处理;用户特征提取;构建训练集;训练水军检测模型;预测判别未标注数据。对比现有技术,本发明实现了数据的充分利用,方便快捷的进行群体发现而不用建立复杂的分类检测模型,从而降低了算法的复杂度,并且算法的模块性较高,可以投入大规模数据计算,具有较高的稳定性;本发明除了可以对单一用户进行水军检测,还可以对某一特定事件中的一批用户进行识别,该方法模块性极强,可以稳定适用于大规模数据计算框架下。
-
公开(公告)号:CN106980692B
公开(公告)日:2020-12-08
申请号:CN201710213302.0
申请日:2017-04-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/9536 , G06Q50/00
Abstract: 本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K‑means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术,本发明考虑微博文本的内容指标,较全面而准确地反映了事件各方面的信息,具有很强的现实意义和实用价值。此外,本发明方法计算的时空耗费不高,易于模块化,可投入大规模的数据计算,具有较好的稳定性。
-
公开(公告)号:CN115374784A
公开(公告)日:2022-11-22
申请号:CN202210810750.X
申请日:2022-07-11
Applicant: 北京理工大学
IPC: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种多模态信息选择性融合的中文命名实体识别方法,属于自然语言处理技术领域。本发明有效解决了如何将字音和字形这两个重要信息有效融入命名实体识别中,通过在命名实体识别的输入中,加入携带语义信息的字符的拼音与偏旁部首序列,赋予了向量更强的语义信息。采用选择性融合,能够动态地控制字音和字形特征所占的权重,有效提升了命名实体识别性能。本发明能够为机器翻译、问答系统和阅读理解等自然语言处理任务提供有效支持。
-
公开(公告)号:CN114706972A
公开(公告)日:2022-07-05
申请号:CN202210275509.1
申请日:2022-03-21
Applicant: 北京理工大学
IPC: G06F16/34 , G06F16/35 , G06F40/30 , G06F40/216 , G06F40/211 , G06K9/62
Abstract: 本发明涉及一种基于多句压缩的无监督科技情报摘要自动生成方法,属于自然语言生成技术领域。针对科技情报领域的多文档文本生成,首先基于LDA主题相似度词库扩展方法的主题爬虫来获取源数据。通过文本信息的权威性、时效性、内容相关性三个指标的文本信息价值评估模型,对所有文本段落进行排序。选取得分较高段落的作为生成最终科技情报的原始文本。最后,采用基于谱聚类和多句压缩的无监督多文档摘要方法,自动生成科技情报摘要。本方法有效解决了在数据筛选过程中,科技情报生成对于数据时效性以及权威性要求较高的问题,以及科技情报领域由于数据集缺乏导致传统基于神经网络多文档生成方法无法应用的问题。
-
公开(公告)号:CN118779443A
公开(公告)日:2024-10-15
申请号:CN202410159540.8
申请日:2024-02-04
Applicant: 北京理工大学
IPC: G06F16/34 , G06F16/35 , G06F16/33 , G06F40/216 , G06F40/247 , G06F40/237 , G06F40/58 , G06N5/025 , G06N3/045
Abstract: 一种基于mT5和词频信息熵的多语共同关注主题检测方法,属于社交媒体信息挖掘技术领域。本方法采用多语言词频信息熵的统计方法,充分考虑共同关注的话题在多语言中分布较为平均的特点,实现不同文化所共同关注的主题词提取;使用mBERT进行同义词聚合,在构建词表过程中实现了冗余词汇的识别,降低输出词汇的冗余程度;通过改进BERTopic中主题词提取算法,使用微调后的mT5对单文档进行主题词的提取,由传统的单语言主题检测改进到多语言的模式,在一定程度上避免潜在价值主题词遗漏的问题。本发明适用于社交媒体信息挖掘技术领域,提高共同关注主题的检测识别能力,并提升主题词的输出质量。
-
公开(公告)号:CN114707516B
公开(公告)日:2024-08-13
申请号:CN202210322393.2
申请日:2022-03-29
Applicant: 北京理工大学
Abstract: 本发明公开了一种基于对比学习的长文本语义相似度计算方法,属于人工智能、自然语言处理技术领域。本发明主要解决的技术问题为小样本场景下长文本语义匹配问题。首先通过爬虫、人工采集手段构建通用、领域数据库。其次使用领域数据库和通用数据库中包含的主题、标题、关键短语等篇章结构信息构建模型,通过有监督的文本表示学习方法对比学习进行训练。最后使用该模型对待评价文本进行预测来获得相似度打分,经过人工修正模块对该语义打分进行修正,并决定是否将该文本加入领域数据库进一步扩大训练资源。定期使用领域资源库更新模型,实现小样本下高精度语义相似度计算。
-
公开(公告)号:CN114385859A
公开(公告)日:2022-04-22
申请号:CN202111631648.5
申请日:2021-12-29
Applicant: 北京理工大学
IPC: G06F16/783 , G06F16/735
Abstract: 本发明公开了一种面向视频内容的多模态检索方法,属于多媒体分析与处理技术领域。本方法面向视频内容,对视频数据和检索数据中的多模态特征进行提取和转化,将多模态特征转化为文本特征,然后通过对文本特征的检索实现对视频内容的检索与定位。本方法充分利用了视频内容中的多模态特征,并支持利用多模态数据进行检索,方便用户以多种方式进行针对视频内容的检索,使无标注情况下针对视频内容的检索更加准确全面。本方法极大方便了用户以多种形式在海量视频数据中快速寻找到自己感兴趣的内容,可以在海量无标注视频中找到用户所感兴趣的内容,节约了人工观看视频进行筛选的时间,可用于视频敏感内容筛选、目标人锁定等,实现数据的高效利用。
-
-
-
-
-
-
-
-
-