一种基于多粒度融合与Bert筛选的中文文本自动校对方法

    公开(公告)号:CN113221542A

    公开(公告)日:2021-08-06

    申请号:CN202110348599.8

    申请日:2021-03-31

    Abstract: 本发明涉及一种基于多粒度融合与Bert筛选的中文文本自动校对方法,属于自然语言处理技术领域;本发明通过结合字粒度与词粒度级别的校对模型,以期能够利用不同粒度级别的信息。字粒度模型采用集成规则生成候选集与Bert筛选的方法,词粒度采用传统方法,先构建候选集,然后使用N‑Gram模型计算句子困惑度取最佳候选。另外该方法还解决了多字少字等错误类型问题。实验结果验证了该方法能有效提高检错纠错的召回率,有效提升校对模型性能。对比现有技术,本发明规避了字粒度校对模型和词粒度校对模型带来的局限性,基于多粒度融合与Bert筛选通过两种粒度有效结合不同层次信息,通过N‑Gram LM打分与Bert进行筛选,能够有效提高错误的召回率和校对的准确率。

    一种不同信息源的房产数据同一性判别方法

    公开(公告)号:CN109977287B

    公开(公告)日:2021-02-02

    申请号:CN201910242011.3

    申请日:2019-03-28

    Abstract: 本发明涉及一种不同信息源的房产数据同一性判别方法,属于互联网数据分析与挖掘技术领域。所述同一性判别方法基于链家、我爱我家、中原、麦田网站公布的房屋数据及其相关性;通过分析房屋数据的特点,通过区域去重、小区去重以及房屋去重的三大步骤剔除重复的房屋数据,所述房屋数据是对实际的房屋客体的特点描述,虽然描述的角度和方式存在差异,但数据之间存在很强的相关性。所述方法能对来源于不同网站的房屋数据去重,能够准确、高效的对来源于不同信息源的房屋数据的同一性判别,并能有效去除重复区域、小区,可以实现面向多源异构的房屋数据的有效融合,为房地产市场分析提供“干净”,“整齐”的数据。

    一种不同信息源的房产数据同一性判别方法

    公开(公告)号:CN109977287A

    公开(公告)日:2019-07-05

    申请号:CN201910242011.3

    申请日:2019-03-28

    Abstract: 本发明涉及一种不同信息源的房产数据同一性判别方法,属于互联网数据分析与挖掘技术领域。所述同一性判别方法基于链家、我爱我家、中原、麦田网站公布的房屋数据及其相关性;通过分析房屋数据的特点,通过区域去重、小区去重以及房屋去重的三大步骤剔除重复的房屋数据,所述房屋数据是对实际的房屋客体的特点描述,虽然描述的角度和方式存在差异,但数据之间存在很强的相关性。所述方法能对来源于不同网站的房屋数据去重,能够准确、高效的对来源于不同信息源的房屋数据的同一性判别,并能有效去除重复区域、小区,可以实现面向多源异构的房屋数据的有效融合,为房地产市场分析提供“干净”,“整齐”的数据。

    一种面向微博的疑似水军发现方法

    公开(公告)号:CN106940732A

    公开(公告)日:2017-07-11

    申请号:CN201710212983.9

    申请日:2017-04-01

    Abstract: 本发明涉及一种面向微博数据的疑似水军发现方法,属于计算机应用技术领域。本发明共分为以下六个步骤,分别为相关微博数据的采集;数据预处理;用户特征提取;构建训练集;训练水军检测模型;预测判别未标注数据。对比现有技术,本发明实现了数据的充分利用,方便快捷的进行群体发现而不用建立复杂的分类检测模型,从而降低了算法的复杂度,并且算法的模块性较高,可以投入大规模数据计算,具有较高的稳定性;本发明除了可以对单一用户进行水军检测,还可以对某一特定事件中的一批用户进行识别,该方法模块性极强,可以稳定适用于大规模数据计算框架下。

    一种基于微博特定事件的影响力计算方法

    公开(公告)号:CN106980692A

    公开(公告)日:2017-07-25

    申请号:CN201710213302.0

    申请日:2017-04-01

    Abstract: 本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K‑means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术,本发明考虑微博文本的内容指标,较全面而准确地反映了事件各方面的信息,具有很强的现实意义和实用价值。此外,本发明方法计算的时空耗费不高,易于模块化,可投入大规模的数据计算,具有较好的稳定性。

    一种基于微博特定事件的影响力计算方法

    公开(公告)号:CN106980692B

    公开(公告)日:2020-12-08

    申请号:CN201710213302.0

    申请日:2017-04-01

    Abstract: 本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K‑means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术,本发明考虑微博文本的内容指标,较全面而准确地反映了事件各方面的信息,具有很强的现实意义和实用价值。此外,本发明方法计算的时空耗费不高,易于模块化,可投入大规模的数据计算,具有较好的稳定性。

    一种知识和数据双轮驱动的代码生成方法

    公开(公告)号:CN119148992A

    公开(公告)日:2024-12-17

    申请号:CN202410973076.6

    申请日:2024-07-19

    Inventor: 常君旸 张华平

    Abstract: 本发明涉及一种知识和数据双轮驱动的代码生成方法,具体涉及一种基于知识和数据双轮驱动的用于自动生成编程语言的方法,属于自然语言处理技术领域。本发明代码生成方法包括下列步骤:S1,构建编程语言知识库;S2,设置分类器模型;S3,设置代码生成模型;以及S4,根据知识库、分类器模型和代码生成模型进行知识和数据双轮驱动的代码生成。与现有技术相比,本发明将知识和数据两方面信息结合进行代码生成,所涉及到的模型结构相对独立,使用者可以根据实际训练资源,自由选择合适尺寸的分类器模型和代码生成模型完成训练,在代码数据量较小、代码生成模型参数量较小的情形下依然具有不错的表现。

    一种基于mT5和词频信息熵的多语共同关注主题检测方法

    公开(公告)号:CN118779443A

    公开(公告)日:2024-10-15

    申请号:CN202410159540.8

    申请日:2024-02-04

    Abstract: 一种基于mT5和词频信息熵的多语共同关注主题检测方法,属于社交媒体信息挖掘技术领域。本方法采用多语言词频信息熵的统计方法,充分考虑共同关注的话题在多语言中分布较为平均的特点,实现不同文化所共同关注的主题词提取;使用mBERT进行同义词聚合,在构建词表过程中实现了冗余词汇的识别,降低输出词汇的冗余程度;通过改进BERTopic中主题词提取算法,使用微调后的mT5对单文档进行主题词的提取,由传统的单语言主题检测改进到多语言的模式,在一定程度上避免潜在价值主题词遗漏的问题。本发明适用于社交媒体信息挖掘技术领域,提高共同关注主题的检测识别能力,并提升主题词的输出质量。

    一种基于对比学习的长文本语义相似度计算方法

    公开(公告)号:CN114707516B

    公开(公告)日:2024-08-13

    申请号:CN202210322393.2

    申请日:2022-03-29

    Abstract: 本发明公开了一种基于对比学习的长文本语义相似度计算方法,属于人工智能、自然语言处理技术领域。本发明主要解决的技术问题为小样本场景下长文本语义匹配问题。首先通过爬虫、人工采集手段构建通用、领域数据库。其次使用领域数据库和通用数据库中包含的主题、标题、关键短语等篇章结构信息构建模型,通过有监督的文本表示学习方法对比学习进行训练。最后使用该模型对待评价文本进行预测来获得相似度打分,经过人工修正模块对该语义打分进行修正,并决定是否将该文本加入领域数据库进一步扩大训练资源。定期使用领域资源库更新模型,实现小样本下高精度语义相似度计算。

Patent Agency Ranking