一种语料处理方法、装置、设备及介质

    公开(公告)号:CN118839690A

    公开(公告)日:2024-10-25

    申请号:CN202410838507.8

    申请日:2024-06-26

    发明人: 谢鸣晓 杨雷 张圳

    摘要: 本申请涉及自然语言处理技术领域,具体涉及一种语料处理方法、装置、设备及介质,用于解决语料筛选判别效率较低的问题。该方法包括:获取第一语料,第一语料包括从预设文本库中进行问答语句抽取得到的问答对。通过句法分析确定第一语料中的问答对的核心词和各个语法成分,获得第一语料中的问答对的语法结构,核心词指示第一业务的名称,各个语法成分包括主语、谓语、宾语、定语、状语、补语中的至少一种。将语法结构与第一规则库中的预设语法结构进行比对确定第一语料中的问答对是否表意完整,若表意不完整,则删除第一语料中表意不完整的问答对,获得第二语料,其中,第一规则库中包括多种表意完整的语法结构。

    一种交互过程的控制方法、装置、存储介质及设备

    公开(公告)号:CN111737491A

    公开(公告)日:2020-10-02

    申请号:CN202010565630.9

    申请日:2020-06-19

    摘要: 本申请实施例公开了一种交互过程的控制方法、装置、存储介质及设备。该方法包括:若检测到用户发出的交互需求,根据所述交互需求的预设维度构建交互过程画像;基于知识图谱对交互需求以及交互过程画像进行处理,确定是否存在个性化需求答案;其中,所述知识图谱是预先构建的;若存在,则返回所述个性化需求答案。通过执行本技术方案,基于全生命周期管控知识图谱可以发现用户的新需求、热门需求及个性化偏好需求等内容,交互结果进行有效性评估,计算策略调整模块针对交互结果评估结论进行个性化的策略调整提升结果的准确性,用户个性化结果构建模块用来提升个性化推荐的精准性,提升了智能交互效果。

    一种基于短会话的新词发现方法、存储介质和电子装置

    公开(公告)号:CN111125327A

    公开(公告)日:2020-05-08

    申请号:CN201911268368.5

    申请日:2019-12-11

    摘要: 本发明公开一种基于短会话的新词发现方法,获取会话内容;分词处理,对所述获取的会话内容进行分词,对分词结果进行处理得到具有业务含义的目标词汇,所述目标词汇由基础单一词汇独立或组合形成;候选词汇筛选,获取所述目标词汇的属性和词频,根据所述目标词汇的属性和词频将符合预定条件的目标词汇作为候选词汇;成词指标计算,计算所述候选词汇的互信息值和左右熵值;候选新词筛选,将满足预设互信息阈值和左右熵阈值的候选词汇作为候选新词;输出新词,对所述候选新词按照词频排序,输出预定数量的新词。结合多重阈值筛选策略进行新词发现,覆盖了单一成词和组合成词的范围,提高了新词发现的可能性。

    数据处理方法与装置
    4.
    发明公开

    公开(公告)号:CN115423327A

    公开(公告)日:2022-12-02

    申请号:CN202211084648.2

    申请日:2022-09-06

    摘要: 本申请提供的一种数据处理方法与装置,涉及数据分析技术领域。该数据处理方法可以准确地将待入库的企业的主营业务信息与绿色企业数据库中的绿色产业类型匹配,进而,根据匹配度对待入库的企业标记与对应的绿色产业类型对应的类别标签的可靠性也高。如此,当需要对待评估的项目进行评估处理时,可以根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目,由于评估规则与待评估的项目匹配,精确度高,效率高。

    一种文本核心内容提取方法及装置

    公开(公告)号:CN111767393A

    公开(公告)日:2020-10-13

    申请号:CN202010575748.X

    申请日:2020-06-22

    IPC分类号: G06F16/34 G06F16/31

    摘要: 一种文本核心内容提取方法及装置,所述方法包括:获取待处理文本并提取所述待处理文本中的关键词;将所述待处理文本中的各段落划分为多个主题;根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次;将所述核心句子按照预设的组合策略进行组合,形成摘要文本。本申请提供的文本核心内容提取方法及装置,采用多维度的综合评价策略,能够根据文本中的不同主题,对文本核心内容进行有代表性的提取,全面客观地反映文本内容。

    一种短会话新问题生成方法、存储介质和人机交互装置

    公开(公告)号:CN111159370A

    公开(公告)日:2020-05-15

    申请号:CN201911321137.6

    申请日:2019-12-20

    IPC分类号: G06F16/332 G06F16/35

    摘要: 本实施例公开一种短会话新问题生成方法,获取候选新问题;形成相似候选新问题集合,将所述候选新问题按照相似程度聚类,获得相似候选新问题集合;提取标签词,提取所述相似候选新问题集合中的预定词频的业务词汇作为所述相似候选新问题集合的标签词;生成主旨句,根据所述相似候选新问题集合的内容生成主旨句;生成新问题,根据所述相似候选新问题集合中预定数量的候选新问题、所述主旨句和所述标签词生成新问题。本实施例考量了候选新问题内容之间的相似性,可以对从多个角度提出的具有业务含义相近似新问题能够精准聚类,匹配到准确答复,业务意图理解能力更接近真实应用场景,适用性更强,可适用于多种业务场景。

    一种对象的等级评估方法、装置、设备及介质

    公开(公告)号:CN118779707A

    公开(公告)日:2024-10-15

    申请号:CN202410935559.7

    申请日:2024-07-12

    摘要: 本申请涉及数据处理技术领域,公开了一种对象的等级评估方法、装置、设备及介质,用于解决相关技术中无法对涉绿企业进行评估以及无法对企业涉绿程度进行分析的问题。将待评估对象的特征向量输入到预设分类模型,以确定待评估对象是否为可评估等级对象,在确定待评估对象为可评估等级对象后,将待评估对象的多维对象信息分成多个用于评估待评估对象是否属于预设评估等级的信息集合,并将任意一个信息集合与预设的对象评估指导目录中的指标信息集合进行匹配,确定待评估对象的评估等级为任意一个信息集合对应的预设评估等级,由此,实现对待评估对象是否为可评估等级对象的判断以及确定了待评估对象的评估等级。

    一种绿色产业项目识别方法、装置及存储介质

    公开(公告)号:CN117033634A

    公开(公告)日:2023-11-10

    申请号:CN202311014625.9

    申请日:2023-08-11

    摘要: 本申请公开了一种绿色产业项目识别方法、装置及存储介质,涉及数据处理技术领域。该方法可应用于电子设备,该方法包括:电子设备获取待识别项目。电子设备根据待识别项目的关键词对待识别项目进行分类,确定待识别项目在绿色产业指导目录中的项目类别,其中,绿色产业指导目录包括为绿色产业项目的多种项目类别。电子设备根据待识别项目所属的项目类别对应的判断标准集合确定待识别项目是否为绿色产业项目,判断标准集合包括判断指标及判断指标对应的取值,若待识别项目的判断指标满足项目类别对应的判断标准集合的条件则待识别项目为绿色产业项目。该方法可以提高对绿色产业项目的识别效率。

    检测敏感字符串的方法、装置、设置及存储介质

    公开(公告)号:CN116756382A

    公开(公告)日:2023-09-15

    申请号:CN202310780376.8

    申请日:2023-06-29

    摘要: 本发明提供一种检测敏感字符串的方法、装置、设置及存储介质,涉及文本处理领域,该方法包括:获取待检测文本及前缀树;其中,所述前缀树包括目标路径,所述目标路径的起点为所述前缀树的根节点的子节点,所述目标路径的终点为含目标标识的节点;响应于所述待检测文本中目标字符串与所述目标路径的节点字符串匹配,确定所述目标字符串为所述敏感字符串;其中,所述节点字符串中的节点字符与所述目标路径上的所述节点一一对应。在检测待检测文本的敏感字符串的过程中,通过先在前缀树中根节点的子节点中进行遍历,降低待检测字符所需遍历的数据量,并以前缀树中目标路径为匹配单元,实现提升文本中检测敏感词效率的目的。