建模对话轮次信息的检索式闲聊对话打分方法

    公开(公告)号:CN110309287A

    公开(公告)日:2019-10-08

    申请号:CN201910612036.8

    申请日:2019-07-08

    摘要: 本发明提供了一种引入对话历史信息的局部注意力机制的检索式对话系统,在开放领域的检索式对话中,传统的模型分为表示层,匹配层,集成层,预测层中,最后从候选集中选出和对话最匹配的候选回复。将表示层划分成单句表示和句间关系两部分进行分别建模。在建模对话的轮次信息时使用局部注意力机制,使得在训练模型时,注意力机制能够获得对于匹配任务更有帮助的轮次信息。局部注意力机制也能够提高模型对整个对话中不同位置内容的关注能力。针对对话中的每部分内容,对重要信息赋予较大权重,次要信息或干扰信息赋予较小权重,实现更好的回复匹配,加快训练速度,提高模型效率。

    用于文字识别的训练样本自动挑选装置及其方法

    公开(公告)号:CN1419214A

    公开(公告)日:2003-05-21

    申请号:CN02157956.3

    申请日:2002-12-23

    IPC分类号: G06K9/00 G06F3/00

    摘要: 本发明公开了一种用于文字识别的训练样本自动挑选装置和方法,所述的装置包括:样本输入装置、样本数据存储单元、训练装置、模型数据库、识别装置、识别结果分析装置、边界样本选择装置、挑选结果输出装置和控制处理装置。所述的方法是根据训练样本对于训练的作用,将训练样本分为好样本、边界样本、差样本三种类型,并通过训练样本进行训练、识别的结果计算广义距离差,根据广义距离差给出三种样本的定义,最后通过边界样本的选择实现训练样本的挑选。本发明的装置和方法思路简捷,能够实现训练样本的自动挑选,挑选结果更加准确,从而使得训练出的模型更加精确,有效提高文字识别系统的识别率。

    生成式语言模型训练方法、装置及设备

    公开(公告)号:CN117370502A

    公开(公告)日:2024-01-09

    申请号:CN202210738369.7

    申请日:2022-06-27

    摘要: 本发明提供的一种生成式语言模型训练方法、装置及设备,所述方法将多组对话数据输入到生成式语言模型;基于所述生成式语言模型,确定每一组对话数据中对话上文和对话下文分别对应的语义表征,以及每一组对话数据对应的预测响应;根据多组对话数据对应的语义表征,确定互信息矩阵;所述互信息矩阵中的每一数值用于表示对应的两个语义表征之间的相关程度;根据所述互信息矩阵和多组对话数据对应的预测响应,对所述生成式语言模型进行更新,通过基于互信息矩阵对模型进行更新,使得模型输出的预测响应与对话上文的语义表征之间的互信息增大,减少输出普适回复的预测响应,从而提高生成的响应的准确度。

    一种基于嵌入式表示的自适应中文分词方法

    公开(公告)号:CN107145483B

    公开(公告)日:2018-09-04

    申请号:CN201710269840.1

    申请日:2017-04-24

    IPC分类号: G06F17/27 G06N3/04

    摘要: 本发明实施例公开了一种基于嵌入式表示的自适应中文分词方法。属于信息处理领域。该方法的特征包括:分词网络和字符语言模型共享一个字符的嵌入式表示层。字符的嵌入式表示,一方面通过基于卷积神经网络的分词网络,得到待分词文本的隐多粒度局部特征;再经过一个前向网络层,得到字符的标签概率;最后应用标签推断,得到句子级别上的最优分词结果。另一方面,我们随机抽取未标注的文本,通过一个基于长短期记忆单元(LSTM)循环神经网络的字符语言模型,预测该字符下一个位置的字符,对分词网络进行约束;本发明通过字符语言模型建模中文不同领域文本中的字符共现关系,并通过嵌入式表示将信息传递给分词网络,使得分词的领域迁移能力得到提升,具有很大的实用价值。

    自动动态更新论坛爬虫系统的构建方法

    公开(公告)号:CN101436196A

    公开(公告)日:2009-05-20

    申请号:CN200810180823.1

    申请日:2008-11-25

    发明人: 杨溥 郭军 徐蔚然

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种自动动态更新论坛爬虫系统的构建方法,该方法包括下列步骤:(1)提取存储纯网页超链接;(2)判断话题网页位置;(3)检测话题网页新旧;(4)新话题网页处理;(5)旧话题网页处理;(6)纯网页超链接情况判断处理。通过应用本发明所描述的方法,可以有效地避免静态更新的弊端;可以自动实时地更新论坛网页;可以为搭建动态更新论坛爬虫系统提供通用的设计框架;更加迅速便利地实现系统开发,有效地降低系统开发成本。

    一种基于嵌入式表示的自适应中文分词方法

    公开(公告)号:CN107145483A

    公开(公告)日:2017-09-08

    申请号:CN201710269840.1

    申请日:2017-04-24

    IPC分类号: G06F17/27 G06N3/04

    CPC分类号: G06F17/2775 G06N3/04

    摘要: 本发明实施例公开了一种基于嵌入式表示的自适应中文分词方法。属于信息处理领域。该方法的特征包括:分词网络和字符语言模型共享一个字符的嵌入式表示层。字符的嵌入式表示,一方面通过基于卷积神经网络的分词网络,得到待分词文本的隐多粒度局部特征;再经过一个前向网络层,得到字符的标签概率;最后应用标签推断,得到句子级别上的最优分词结果。另一方面,我们随机抽取未标注的文本,通过一个基于长短期记忆单元(LSTM)循环神经网络的字符语言模型,预测该字符下一个位置的字符,对分词网络进行约束;本发明通过字符语言模型建模中文不同领域文本中的字符共现关系,并通过嵌入式表示将信息传递给分词网络,使得分词的领域迁移能力得到提升,具有很大的实用价值。

    同话题定位跟踪式论坛爬虫系统

    公开(公告)号:CN101436197B

    公开(公告)日:2010-09-08

    申请号:CN200810180824.6

    申请日:2008-11-25

    发明人: 杨溥 郭军 徐蔚然

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种同话题定位跟踪式论坛爬虫系统,包括以下部件:非文本粗略过滤器,非文本精确过滤器,超链接补全器,纯网页超链接存储库,同话题定位跟踪器,同话题网页超链接存储库,网页组数据下载器,统一编号器,网页组数据存储库,以及纯网页超链接供应器。通过应用本发明所描述的系统,可以有效地解决爬虫系统采集论坛数据大量冗余和凌乱无序的问题;可以为搭建论坛搜索引擎系统的重要组成部分——论坛数据采集系统提供通用可靠的搭建框架;显著降低论坛爬虫系统的开发难度,进一步有效地降低论坛搜索引擎系统开发成本。

    并行式关联布告栏爬虫系统

    公开(公告)号:CN101446953A

    公开(公告)日:2009-06-03

    申请号:CN200810180822.7

    申请日:2008-11-25

    发明人: 杨溥 郭军 徐蔚然

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种并行式关联布告栏爬虫系统,包括以下部件:并行爬取器,超链接剥离器,数据分拣器,网页超链接存储器,数据关联器,存储器,以及超链接投递器。通过应用本发明所描述的系统,可以为开发复式综合布告栏搜索引擎系统的爬虫系统提供通用的设计架构;可以有效地快速地将多个布告栏信息综合分类,并且获得分类关联的信息数据集;从而为复式综合布告栏搜索引擎系统的其他子系统的设计和开发创造便利的条件和基础,尤其是给检索子系统提供设计开发的便利,大大地提高系统的开发效率和降低系统的开发成本。