一种维吾尔文语种识别方法、装置及存储介质

    公开(公告)号:CN112711943B

    公开(公告)日:2023-11-24

    申请号:CN202011497407.1

    申请日:2020-12-17

    摘要: 本发明公开了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。通过词汇数据库比对,对较短的内容进行判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维文翻译以及对聊天内容的分析阅读。

    一种网络语境的文本识别方法、装置及存储介质

    公开(公告)号:CN111581970B

    公开(公告)日:2023-01-24

    申请号:CN202010396183.9

    申请日:2020-05-12

    摘要: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。

    一种基于多源特征的文本分类方法、终端设备及存储介质

    公开(公告)号:CN114444497A

    公开(公告)日:2022-05-06

    申请号:CN202111564960.7

    申请日:2021-12-20

    摘要: 本发明涉及一种基于多源特征的文本分类方法、终端设备及存储介质,该方法中包括:S1:接收文本并分词;S2:通过在LSTM网络中添加自注意力机制的方式,获取词注意力权重矩阵和字注意力权重矩阵;S3:构建关键词表,基于分词结果,从关键词表中查找核心关键词表;S4:采用N种关键词提取算法提取得到N个候选关键词表;S5:基于词注意力权重矩阵和字注意力权重矩阵,根据候选关键词表得到拓展关键词表和拓展关键字表;S6:将核心关键词表、拓展关键词表和拓展关键字表中的所有字和词作为关键词和关键字;S7:对关键词和关键字进行特征提取;S8:基于提取的特征,通过分类网络对文本的类别进行预测。本发明提高文本分类的准确率。

    一种网页分类方法、终端设备及存储介质

    公开(公告)号:CN112131506A

    公开(公告)日:2020-12-25

    申请号:CN202011013718.6

    申请日:2020-09-24

    摘要: 本发明涉及一种网页分类方法、终端设备及存储介质,该方法中包括:S1:采集多种类型的网页,根据每个网页中至少两种类型的特征构建图结构,并对网页的类型进行标记后,将所有具有类型标记的图结构组成训练集;S2:构建图卷积神经网络模型,通过训练集对图卷积神经网络模型进行训练,将训练后的模型作为网页分类模型;S3:针对待分类网页,根据步骤S1所述的至少两种类型的特征构建图结构后,通过网页分类模型确定图结构对应的网页类型。本发明充分学习网页中的文本和图片等额外的异构信息来构建网页分类模型,相对现有网页分类方法,能有效的解决基于单一数据结构的网页分类方法的局限性,能够明显解决网页特征稀疏问题。

    一种文本预处理方法、装置及存储介质

    公开(公告)号:CN111090992B

    公开(公告)日:2022-12-06

    申请号:CN201911289718.6

    申请日:2019-12-13

    摘要: 本发明公开了一种文本预处理方法和装置,通过构造特征信息表,通过特征信息表对用户自定义分词字典进行更新,通过加密算法对特征信息表和更新后的用户自定义分词字典进行加密;输入文本数据,通过特征信息表对文本数据进行匹配,保留文本数据在特征信息表中出现的特征信息,对文本数据中的非法序列信息进行删除得到新的字符串;以及对加密后的用户自定义分词字典进行解密和加载,并通过用户自定义分词字典对新的字符串进行分词。通过特征信息表可以自动更新用户自定义分词字典特征信息词频,减化人工繁琐的配置过程。对用户自定义词典进行加密,修改Jieba中字典读取加载方式,实现对加密用户自定义分词字典的读取,增强用户自定义分词字典的安全性。

    一种短文本分类方法、终端设备及存储介质

    公开(公告)号:CN111143560B

    公开(公告)日:2022-07-01

    申请号:CN201911366859.3

    申请日:2019-12-26

    IPC分类号: G06F16/35 G06N3/04

    摘要: 本发明涉及一种短文本分类方法、终端设备及存储介质,该方法中包括:S1:采集多个文本数据并进行特征提取后组成训练集;S2:分别构建基于卷积神经网络和循环神经网络的多个分类模型,计算每个分类模型对训练集中各样本的输出概率;S3:构建三个模型集;S4:根据KS值筛选三个模型集中的两个合并为融合模型库I;S5:设定融合模型库I的样本预测值计算公式;S6:设定损失函数loss;S7:通过训练集对融合模型库I进行迭代训练,通过调整权重参数w1和w2,使得损失函数loss的值最小;S8:通过训练后的融合模型库I对待分类文本数据进行分类。本发明针对短文本数据稀疏、噪声大等问题,通过模型融合策略,有效提高模型应对新数据领域的适应能力。

    一种构建人物关系图谱的方法、装置以及存储介质

    公开(公告)号:CN114443836A

    公开(公告)日:2022-05-06

    申请号:CN202111599101.1

    申请日:2021-12-24

    摘要: 本发明公开了一种构建人物关系图谱的方法、装置以及存储介质,所述方法包括:获取群聊数据,群聊数据包含时间信息和文本信息;根据时间信息和文本信息,将群聊数据分为一个或多个群聊片段;提取群聊片段的话题类别,根据话题类别对群聊片段进行分类,得到一个或多个话题数据,话题数据包含一个或多个群聊片段;对话题数据包含的所有群聊片段进行分析,得到成员的人物关系,人物关系包括成员的活跃程度、成员间的互动强度和成员间的社会关系;根据成员的人物关系,构建成员的人物关系图谱。本发明提供的一种构建人物关系图谱的方法和装置,有助于进一步挖掘关键聊天内容、成员信息及成员关系。

    一种网页分类方法、终端设备及存储介质

    公开(公告)号:CN112131506B

    公开(公告)日:2022-04-29

    申请号:CN202011013718.6

    申请日:2020-09-24

    摘要: 本发明涉及一种网页分类方法、终端设备及存储介质,该方法中包括:S1:采集多种类型的网页,根据每个网页中至少两种类型的特征构建图结构,并对网页的类型进行标记后,将所有具有类型标记的图结构组成训练集;S2:构建图卷积神经网络模型,通过训练集对图卷积神经网络模型进行训练,将训练后的模型作为网页分类模型;S3:针对待分类网页,根据步骤S1所述的至少两种类型的特征构建图结构后,通过网页分类模型确定图结构对应的网页类型。本发明充分学习网页中的文本和图片等额外的异构信息来构建网页分类模型,相对现有网页分类方法,能有效的解决基于单一数据结构的网页分类方法的局限性,能够明显解决网页特征稀疏问题。

    一种维吾尔文语种识别方法、装置及存储介质

    公开(公告)号:CN112711943A

    公开(公告)日:2021-04-27

    申请号:CN202011497407.1

    申请日:2020-12-17

    摘要: 本发明公开了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。通过词汇数据库比对,对较短的内容进行判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维文翻译以及对聊天内容的分析阅读。