文本去重方法、装置、电子设备及计算机可读存储介质

    公开(公告)号:CN112733537B

    公开(公告)日:2024-10-22

    申请号:CN202011637850.4

    申请日:2020-12-31

    发明人: 何友鑫 彭琛 汪伟

    摘要: 本发明涉及语音语义技术,揭露了一种文本去重方法,包括:获取多个待去重文本,将多个待去重文本汇集为语料库;对多个待去重文本进行分词得到文本分词;根据语料库构建文本分词对应的待去重文本的文本指纹;根据文本指纹对多个待去重文本进行重合去重,得到多个初步去重文本;对多个初步去重文本中各文本进行分句,得到每个初步去重文本的文本分句;计算每个文本分句间的重合字粒度;根据重合字粒度对多个初步去重文本进行范围去重,得到去重文本集。此外,本发明还涉及区块链技术,所述待去重文本可存储于区块链的节点。本发明还提出一种文本去重装置、电子设备以及计算机可读存储介质。本发明可以解决大量文本去重时效率和精确度不高的问题。

    企业关系预测方法、装置、计算机设备和存储介质

    公开(公告)号:CN109558584B

    公开(公告)日:2024-08-20

    申请号:CN201811257532.8

    申请日:2018-10-26

    发明人: 徐冰 汪伟 肖京

    摘要: 本申请涉及一种基于分类算法的企业关系预测方法、装置、计算机设备和存储介质。所述方法包括:获取第一关系句,所述第一关系句包含第一企业实体和第二企业实体;根据第一关系句以及预先设置的关系句模板,得到第二关系句,将第一关系句和第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率,根据概率最大的分类标签以及第二关系句,对第一企业实体和第二企业实体之间的关系类型进行预测,得到关系预测结果。采用本方法能够提高企业关系预测的准确性。

    新闻实体识别模型的构建方法、装置和计算机设备

    公开(公告)号:CN109446514B

    公开(公告)日:2024-08-20

    申请号:CN201811089168.9

    申请日:2018-09-18

    发明人: 黄萍 汪伟 肖京

    摘要: 本申请涉及一种基于迁移学习的新闻实体识别模型的构建方法、装置、计算机设备和存储介质。所述方法包括:构建命名实体识别模型;提取预先训练好的词性标注模型中第二神经网络模型的神经网络参数,并根据神经网络参数初始化命名实体识别模型的第一神经网络模型;获取新闻语料训练样本,新闻语料训练样本中的第一中文字符标注有对应的标签;将第一中文字符转化为第一字向量,并将第一字向量输入至第一神经网络模型,获得中文字符的第一特征向量;利用第一中文字符对应的第一特征向量以及对应的标签,对目标条件随机场模型进行有监督训练,得到新闻实体识别模型。采用本方法能够提升新闻实体识别模型的识别效果。

    政策影响分析方法、装置、计算机设备和存储介质

    公开(公告)号:CN109635082B

    公开(公告)日:2024-08-02

    申请号:CN201811417482.5

    申请日:2018-11-26

    发明人: 张依 汪伟 肖京

    摘要: 本申请涉及大数据领域,提供了一种政策影响分析方法、装置、计算机设备和存储介质。方法包括:获取政策文本,并提取政策文本的关键词,根据关键词,获取与政策文本匹配的各新闻文本,比较政策文本与各新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本,识别目标新闻文本的主题词,根据目标新闻文本的主题词,确定政策文本的影响结果。通过将新闻文本作为比较对象,对相关的新闻文本进行筛选并根据主题词识别得到政策文本的影响结果,提高了政策影响分析的效率。

    文本分类方法、装置、计算机设备和存储介质

    公开(公告)号:CN109543032B

    公开(公告)日:2024-07-02

    申请号:CN201811258359.3

    申请日:2018-10-26

    发明人: 徐冰 汪伟 肖京

    摘要: 本申请涉及一种基于分类模型的文本分类方法、装置、计算机设备和存储介质。所述方法包括:从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取于文本特征组合相应的融合特征,根据文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器,根据分类器,得到融合分类器,将融合特征输入融合分类器,得到融合分类器输出的多个预设标签的概率,预设标签对应一个文本类型,根据概率最大的预设标签,确定待分类文本的文本类型。采用本方法能够提高文本分类的准确性。

    关键信息提取模型的训练方法、提取方法、设备及介质

    公开(公告)号:CN113420120B

    公开(公告)日:2024-05-31

    申请号:CN202110704690.9

    申请日:2021-06-24

    发明人: 陈凯 徐冰 汪伟

    IPC分类号: G06F16/33 G06F18/214

    摘要: 本申请适用于数据处理技术领域,提供了一种关键信息提取模型的训练方法、提取方法、设备及介质,该训练方法包括:获取训练文本,确定训练文本中的关系词在训练文本中的第一位置;基于第一位置,确定训练文本中的实施词的第一信息,基于第一位置和第一信息,得到交叉熵损失函数,基于交叉熵损失函数更新关键信息提取模型中的参数,得到训练后的关键信息提取模型;本申请利用多个参数确定交叉熵损失函数可以使得到的训练后的关键信息提取模型更准确,使关键信息提取模型提取的关键信息更准确。

    基于知识图谱的案件检索方法、装置、设备及存储介质

    公开(公告)号:CN111241241B

    公开(公告)日:2024-05-31

    申请号:CN202010017590.4

    申请日:2020-01-08

    摘要: 本申请涉及大数据领域,公开了一种基于知识图谱的案件检索方法、装置、设备及存储介质,提高了案件检索系统的可用性。本申请方法包括:根据文本信息构建法律案件知识图谱,将根据所述法律案件知识图谱构建的节点集合数据进行随机游走采样,获取多个序列数据,基于多个所述序列数据通过词转化向量算法对所述模型进行训练,获取更新的目标模型,获取目标文本信息,并通过所述目标模型分析所述目标文本信息以构建待检索知识图谱,根据所述待检索知识图谱在所述法律案件知识图谱中检索,以获取与所述待检索知识图谱关联的案件信息,根据所述案件信息的第一相似度和第二相似度,获取输出的案件信息。

    资产信息识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN110781299B

    公开(公告)日:2024-03-19

    申请号:CN201910882814.5

    申请日:2019-09-18

    摘要: 本申请涉及数据处理领域,公开了一种资产信息识别方法、装置、计算机设备及存储介质,所述方法包括:获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落;对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息;根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落;利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息。通过训练文本分类模型和实体识别模型,完成法律文书中资产信息的识别和提取,比传统的规则遍历法更有通用性,能够进行自动识别,并且提高信息识别的准确率。

    文章摘要自动生成方法、装置及计算机可读存储介质

    公开(公告)号:CN110717333B

    公开(公告)日:2024-01-16

    申请号:CN201910840724.X

    申请日:2019-09-02

    发明人: 刘媛源 汪伟

    IPC分类号: G06F40/30 G06F16/34

    摘要: 本发明涉及一种人工智能技术,揭露了一种文章摘要自动生成方法,包括:接收原始文章数据集及原始摘要数据集并进行包括切词、去停用词的预处理得到初级文章数据集及初级摘要数据集,将所述初级文章数据集及初级摘要数据集进行词向量化及词向量编码后得到训练集及标签集,将所述训练集及标签集输入至预先构建的摘要自动生成模型中训练得到训练值,若所述训练值小于预设阈值时,所述摘要自动生成模型退出训练,接收用户输入的文章,将所述文章进行上述预处理、词向量化及词向量编码后输入至所述摘要自动生成模型生成摘要并输出。本发明还提出一种文章摘要自动生成装置以及一种计算机可读存储介质。本发明可以实现精准高效的文章摘要自动生成功能。

    文字布局方法、装置及计算机可读存储介质

    公开(公告)号:CN110704687B

    公开(公告)日:2023-08-11

    申请号:CN201910829790.7

    申请日:2019-09-02

    发明人: 郑子欧 汪伟

    摘要: 本发明涉及一种人工智能技术,揭露了一种文字布局方法,包括获取半结构化的文本集,对所述半结构化的文本集进行预处理操作,得到数值向量文本集,以及将所述半结构化的文本集转换为文本图像集,对所述文本图像集进行预处理操作,得到文本布局特征集;利用预先构建的特征提取模型对所述数值向量文本集和所述文本布局特征集进行特征选择,分别得到文本语义特征集和文本分布特征集;根据所述文本语义特征集和所述文本分布特征集,利用随机森林模型对所述半结构化的文本集中的文本进行分类,得到所述文本的分类结果,从而完成所述文本的文字布局。本发明还提出一种文字布局装置以及一种计算机可读存储介质。本发明实现了文本中文字的精确布局。