对话文本摘要生成方法、装置、电子设备和存储介质

    公开(公告)号:CN111400489A

    公开(公告)日:2020-07-10

    申请号:CN202010269479.4

    申请日:2020-04-08

    IPC分类号: G06F16/34

    摘要: 本发明实施例提供一种对话文本摘要生成方法、装置、电子设备和存储介质,其中方法包括:确定对话文本;将所述对话文本中每一发言人对应的分句输入至对话文本摘要模型中,得到所述对话文本摘要模型输出的所述对话文本对应的摘要;所述对话文本摘要模型用于确定所述对话文本中每一发言人的先验发言人特征表示,并基于所述对话文本中每一发言人对应的分句和先验发言人特征表示,生成所述对话文本对应的摘要;所述对话文本摘要模型是基于样本对话文本中每一发言人对应的样本分句,以及所述样本对话文本的样本摘要训练得到的。本发明实施例提供的对话文本摘要生成方法、装置、电子设备和存储介质,提高了对话文本摘要生成的准确性。

    一种定标集确定方法及装置
    82.
    发明公开

    公开(公告)号:CN110096708A

    公开(公告)日:2019-08-06

    申请号:CN201910361757.6

    申请日:2019-04-30

    IPC分类号: G06F17/27 G06F16/35 G06K9/62

    摘要: 本申请公开了一种定标集确定方法及装置,本方法首先获取各答题对象对目标题目的答题内容,然后根据各所述答题内容间的属性差别,对各答题内容进行聚类,通过聚类可以将属性相近的答题内容聚集到一个聚类簇中,由此得到至少两个聚类簇,其中,从属于同一聚类簇的各答题内容的属性差别更小,而从属于不同聚类簇的答题内容的属性差别更大。进一步,从每个聚类簇中抽取答题内容,由抽取的答题内容组成定标集。综上可见,本申请抽取的定标集包含了各个聚类簇中的答题内容,也即覆盖了各属性的答题内容,保证了定标集的均衡性。进一步,基于本申请抽取的定标集训练的自动评测模型,其评测准确度也会更高。

    数据处理方法和系统
    83.
    发明公开

    公开(公告)号:CN109766407A

    公开(公告)日:2019-05-17

    申请号:CN201811436568.2

    申请日:2018-11-28

    IPC分类号: G06F16/33 G06F17/27

    摘要: 本发明提供了一种数据处理方法和装置,该方法包括:接收阅读理解文本、题干文本、多个选项文本;根据阅读理解文本的第一文本特征、题干文本的第二文本特征、多个选项文本中的任意一个选项文本的第三文本特征,识别阅读理解文本、题干文本以及选项文本之间两两匹配的至少两个语义匹配关系;根据至少两个语义匹配关系,识别多个选项文本中作为题干文本的正确答案的目标选项文本并输出。本发明能够利用选项、题干、篇章之间在高维向量空间的匹配关系,结合端到端的深度学习方法,提升了对选择型阅读理解题的作答准确度。

    一种文本处理方法及装置
    84.
    发明公开

    公开(公告)号:CN108090099A

    公开(公告)日:2018-05-29

    申请号:CN201611045925.3

    申请日:2016-11-22

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明实施例提供了一种文本处理方法及装置,其中方法包括:获取待处理文本数据;根据第一文本分类模型和第二文本分类模型分别获取所述文本数据的一个候选类别,其中所述第一文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类,所述第二文本分类模型用于根据所述文本数据所包含的句子中的指定句子对所述文本数据分类;根据所获取的两个所述候选类别确定所述文本数据的类别。在本发明实施例中,从标题+全文以及指定句子两种角度对待分类文本进行分类,得到两个候选类别,在此基础上最终确定文本的类别,这样有效地提高了文本分类的效率,同时也提高了文本分类的准确性,降低了人的主观性对分类结果的影响。

    一种目标语句识别方法及装置

    公开(公告)号:CN107783958A

    公开(公告)日:2018-03-09

    申请号:CN201610792978.5

    申请日:2016-08-31

    IPC分类号: G06F17/27

    CPC分类号: G06F17/2765 G06F17/2785

    摘要: 本发明实施例提供了一种目标语句识别方法及装置,其中方法包括:获取待处理的文本,其中所述文本包含一条或多条自然语言语句;提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句。本发明可自动发现属于目标语句(例如优美句子)的语句,从而大大提高了目标语句的识别效率;同时,本发明的识别标准是基于客观的特征及模型,使得识别结果也较为客观,从而避免了人工识别时的主观性问题。

    一种答题内容评测方法及装置

    公开(公告)号:CN110069783B

    公开(公告)日:2023-05-30

    申请号:CN201910360959.9

    申请日:2019-04-30

    摘要: 本申请公开了一种答题内容评测方法及装置,本方法对于待评测答题内容确定其深度特征,基于该深度特征可自动确定待评测答题内容的评测结果,由此可见,本方案能够实现自动对待评测答题内容进行评测的目的,相比于现有的人工评测方法,具有耗时短、效率高的优点,并且大大降低了人工成本。进一步,深度特征具备相比于相同评测结果,对不同评测结果对应的答题内容的表征差异性更大的能力,和/或,具备对差别越大的评测结果对应的答题内容的表征差异性越大的能力,所以本方法充分考虑不同评测结果对应的答题内容之间的差异性,提高了评测结果的准确性。

    一种文本处理方法及装置
    88.
    发明授权

    公开(公告)号:CN108090099B

    公开(公告)日:2022-02-25

    申请号:CN201611045925.3

    申请日:2016-11-22

    IPC分类号: G06F16/35 G06F40/30

    摘要: 本发明实施例提供了一种文本处理方法及装置,其中方法包括:获取待处理文本数据;根据第一文本分类模型和第二文本分类模型分别获取所述文本数据的一个候选类别,其中所述第一文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类,所述第二文本分类模型用于根据所述文本数据所包含的句子中的指定句子对所述文本数据分类;根据所获取的两个所述候选类别确定所述文本数据的类别。在本发明实施例中,从标题+全文以及指定句子两种角度对待分类文本进行分类,得到两个候选类别,在此基础上最终确定文本的类别,这样有效地提高了文本分类的效率,同时也提高了文本分类的准确性,降低了人的主观性对分类结果的影响。

    一种文本处理方法及装置

    公开(公告)号:CN108090098B

    公开(公告)日:2022-02-25

    申请号:CN201611045923.4

    申请日:2016-11-22

    IPC分类号: G06F16/35

    摘要: 本发明实施例提供了一种文本处理方法及装置,其中方法包括:获取待处理文本数据;根据文本分类模型获取所述文本数据属于每个预设类别的概率,其中所述文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类;根据所述文本数据属于每个预设类别的概率确定所述文本数据的类别。在本发明实施例中,使用文本分类模型从标题+全文这种篇章角度对待分类文本进行分类,得到当前文本属于每个预设类别的概率,再在此基础上最终确定文本的类别,这样有效地提高了文本分类的效率,同时也提高了文本分类的准确性,降低了人的主观性对分类结果的影响。

    离题作文检测方法、装置和终端设备

    公开(公告)号:CN107301169B

    公开(公告)日:2021-02-05

    申请号:CN201710458387.9

    申请日:2017-06-16

    摘要: 本申请提出一种离题作文检测方法、装置和终端设备,该离题作文检测方法包括:接收待检测作文,所述待检测作文包括题目和正文文本;分别对所述题目和所述正文文本进行分词,并分别对进行分词后获得的所述题目和所述正文文本中的词进行向量化,得到所述待检测作文的词向量;根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度;如果所述待检测作文的离题度小于或等于预设的阈值,则通过预先构建的离题作文判定模型确定所述待检测作文是否离题。本申请在待检测作文的离题度小于或等于预设的阈值时,从待检测作文的语义角度再次进行离题检测,从而大大提高了离题作文检测的准确度。