拼写检查模型生成方法、装置、计算设备及存储介质

    公开(公告)号:CN118468860A

    公开(公告)日:2024-08-09

    申请号:CN202410648420.4

    申请日:2024-05-23

    摘要: 本申请公开了一种拼写检查模型生成方法、装置、计算设备及存储介质,该方法包括:根据公开的第一字混淆集及第一语料数据集构建第二字混淆集;根据输入法构建的第二语料数据集及第一语料数据集构建词混淆集;从训练文本集中的原训练文本中随机采样确定多个待掩码字符及至少一个待掩码词语;基于预设混合掩码策略,利用第二字混淆集对多个待掩码字符进行掩码处理以及利用词混淆集对至少一个待掩码词语进行掩码处理,得到增强训练文本;基于原训练文本及增强训练文本进行模型训练,生成拼写检查模型。本申请实现了自动生成训练所需的增强训练样本,克服了中文拼写检查数据不足的问题,减少了人力标注成本,同时也大大提升了拼写检查模型的准确度。

    基于容错后缀自动机的文本纠错方法及装置

    公开(公告)号:CN118194862A

    公开(公告)日:2024-06-14

    申请号:CN202410410143.3

    申请日:2024-04-07

    摘要: 本发明公开了一种基于容错后缀自动机的文本纠错方法及装置,方法包括:根据预设词表构建前缀树;前缀树包括词尾节点;词尾节点记录文本以及文本长度;对待纠错文本基于预设编辑距离,生成对应的容错后缀自动机;基于前缀树进行搜索,确定与容错后缀自动机的交集;交集包括与前缀树的词尾节点匹配时容错后缀自动机的待纠错节点移动轨迹以及纠错长度;确定交集中纠错长度最小的待纠错节点作为纠错修改节点,根据前缀树对待纠错文本进行纠错修改。经预设编辑距离构建的容错后缀自动机和前缀树的交集,可以使预设词表在待纠错文本中的快速模糊匹配、查找定位错误的词语,计算速度快,纠错精准。

    基于大语言模型的生成文本长度控制方法及装置

    公开(公告)号:CN117787241A

    公开(公告)日:2024-03-29

    申请号:CN202311824583.5

    申请日:2023-12-27

    摘要: 本申请实施例公开了一种基于大语言模型的生成文本长度控制方法及装置,其中,该方法包括:获取经过标注的第一模型对齐数据;第一模型对齐数据包括多个生成指令以及多个生成指令对应的目标文本;依据第一模型对齐数据中的每个生成指令以及每个生成指令对应的目标文本,构建第二模型对齐数据;第二模型对齐数据包括多个包含有长度控制指令的样本指令以及多个样本指令对应的目标文本;利用第二模型对齐数据,基于概率排序方式进行大语言模型训练,得到目标文本生成模型。本申请通过概率排序方式,有效地提高了经过训练的目标文本生成模型对于生成文本的长度可控性,并显著降低了训练阶段对计算资源的消耗。

    文本来源识别方法、装置、计算设备及存储介质

    公开(公告)号:CN117095416B

    公开(公告)日:2024-03-29

    申请号:CN202310891347.9

    申请日:2023-07-19

    摘要: 本发明公开了一种文本来源识别方法、装置、计算设备及存储介质。其中,方法包括:获取目标文本;将目标文本输入至基于机器学习算法训练得到的文本来源识别模型中;获取文本来源识别模型输出的目标文本的文本来源,文本来源包括人工生成和/或机器生成。本方案由基于机器学习算法训练的文本识别模型来识别目标文本的文本来源,从而能够准确地分辨出目标文本是由人工生成还是机器生成,并且无需人工识别目标文本的文本来源,有利于提升文本来源的识别效率以及节约人工成本。

    基于大语言模型的可控文本生成方法及装置

    公开(公告)号:CN117216193B

    公开(公告)日:2024-02-27

    申请号:CN202311256074.7

    申请日:2023-09-26

    摘要: 本发明公开了一种基于大语言模型的可控文本生成方法及装置,方法包括:根据观点数据构建观点数据库;将第一媒体平台的第一热点事件和第一热点事件的第一热点内容输入至热点内容总结模型,得到第一热点事件的第一总结内容;根据观点数据库、第一热点事件的第一贴文以及第一热点事件的第一总结内容,利用贴文过滤模型过滤与观点数据库观点不一致的第一热点事件的第一贴文;将过滤后的第一热点事件的第一贴文、第一热点事件的第一总结内容和目标用户群体信息输入至文本生成大模型,得到可控文本。构建观点数据库保证生成文本的准确性和合理性,引入目标用户群体信息保障文本更符合

    一种基于无监督的长短影评细粒度观点挖掘方法

    公开(公告)号:CN113641788B

    公开(公告)日:2024-02-23

    申请号:CN202110904457.5

    申请日:2021-08-06

    摘要: 本发明公开了一种基于无监督的长短影评细粒度观点挖掘方法,其特征在于:1)从社交平台和电影平台进行多维度的影评文本信息获取;2)基于开源中文情感词典,采用SO‑PMI词典扩展方法构建影评情感词典;3)采用基于关联规则方法和word2vec挖掘全局评价对象和个性化评价对象,再通过K‑means形成完整短影评评价对象;4)采用MG‑LDA结合word2vec发现长影评的主题分布以及词分布,构建长影评评价对象;5)对评价对象进行情感分析并形成影评观点摘要。本发明所公开无监督长短影评细粒度观点挖掘方法,较现有的影评挖掘方法相比,可以获取更丰富的影评文本数据,充分挖掘影评文本信息,针对影(56)对比文件Shiva Twinandilla 等.Multi-DocumentSummarization Using K-Means and LatentDirichlet Allocation (LDA) – SignificanceSentences.Procedia Computer Science.2018,(第135期),663-670.Haifei Qin 等.Hotel ClassificationBased on Online Review Data.2018 14thInternational Conference on NaturalComputation, Fuzzy Systems and KnowledgeDiscovery (ICNC-FSKD).2019,264-269.何伟林 等.潜在狄利克雷分布模型研究综述.信息资源管理学报.2018,(第01期),55-64 .陈鑫 等.基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法.山东大学学报(理学版).2018,(第03期),36-45 .陈平平 等.基于机器学习的文本情感倾向性分析.计算机与现代化.2020,(第03期),77-81.胡亚娇 等.基于多态信息挖掘的电影用户画像研究.现代电影技术.2020,(第06期),16-22.马丽菲 等.面向中文短影评的分类技术研究.山东大学学报(理学版).2016,(第01期),52-57.睢国钦 等.基于深度学习和CRFs的产品评论观点抽取方法.情报杂志.2019,(第05期),177-185.张聪 等.基于语义图优化算法的中文微博观点摘要研究.山东大学学报(理学版).2017,(第07期),59-65.

    反讽识别方法、装置、计算设备及存储介质

    公开(公告)号:CN117436457A

    公开(公告)日:2024-01-23

    申请号:CN202311443301.7

    申请日:2023-11-01

    摘要: 本发明公开了一种反讽识别方法、装置、计算设备及存储介质,该方法包括:根据各个有标注文本的反讽标签信息,构建各个有标注文本的标准推理结果;根据各个有标注文本及其标准推理结果,对大语言模型进行微调处理,得到目标语言模型;利用目标语言模型对任一无标注文本进行反讽推理处理,根据该无标注文本的反讽推理结果,确定该无标注文本的伪标签信息;根据各个无标注文本及其伪标签信息对中间识别模型进行微调处理,得到目标识别模型;中间识别模型用于提取输入文本的文本表示向量;利用目标识别模型进行文本的反讽识别处理。通过上述方式,实现了基于少量数据的有标注样本数据扩充,提升了模型的反讽识别性能,提升了模型构建的效率。

    面向社交媒体内容的多目标群体分类方法

    公开(公告)号:CN117094835A

    公开(公告)日:2023-11-21

    申请号:CN202311035552.1

    申请日:2023-08-16

    摘要: 本发明公开了一种面向社交媒体内容的多目标群体分类方法。本发明首先从训练语料库中检测每个目标的指示词,形成对每个目标的文本描述;然后依次进行目标相关性检测和目标倾向性分析,前者用于检测文本与各个目标的相关性,后者用于预测文本对各个相关目标的倾向性。在目标相关性检测中,使用目标嵌入注意力建立文本与各级目标之间的语义交互,并通过层间目标动态路由和一级相关性注意力,建模多种形式的级间信息传递。在目标倾向性分析中,结合模板将文本映射为提示,充分利用预训练语言模型中的语言学知识;使用目标感知的对比学习促进模型训练。实验结果证明,本发明能有效识别社交媒体内容在多个目标上的群体类别。

    问答处理方法、装置、系统、计算设备及计算机存储介质

    公开(公告)号:CN116860949A

    公开(公告)日:2023-10-10

    申请号:CN202311056160.3

    申请日:2023-08-21

    摘要: 本发明公开了一种问答处理方法、装置、系统、计算设备及计算机存储介质,该方法包括:获取用户端发送的问题查询语句;根据问题查询语句查询目标提示词演示库及政务知识图谱,得到知识图谱数据集以及与问题查询语句相关的E个提示词演示;将问题查询语句、E个提示词演示、知识图谱数据集输入至经过训练的自然语言生成模型,得到问题查询语句对应的答复结果,将答复结果返回至用户端。通过上述方式,本发明能够准确地向用户提供答复结果,提高了回复的准确性及流畅度,帮助用户在办理政府服务事项时精确定位事项信息,解决重复提交材料等问题,提高用户线上线下办事效率。

    一种融合社交网络知识图谱的小样本立场检测方法

    公开(公告)号:CN116720579A

    公开(公告)日:2023-09-08

    申请号:CN202310785541.9

    申请日:2023-06-29

    摘要: 本发明涉及立场分析技术领域,具体公开了一种融合社交网络知识图谱的小样本立场检测方法,在编码层利用BERT来分别编码文本和主题,构建社交网络知识图谱并将知识图谱嵌入,进行立场预测;本发明结合小样本学习技术,同时引入外部社交网络知识图谱信息,能够很好地提升立场检测效率和精度,进一步加强模型的泛化和推理能力能够应用于舆情监测、立场分析等领域,具有广泛的应用前景,解决了传统方法在仅有少量标注数据的情况下进行立场检测,模型的泛化能力、准确性以及稳定性差的不足。