高效输入的预测方法和装置

    公开(公告)号:CN104102720B

    公开(公告)日:2018-04-13

    申请号:CN201410345173.7

    申请日:2014-07-18

    Inventor: 吴琨 戴云

    CPC classification number: G06F3/0237 G06F17/276 G06F17/30687 G06N5/04

    Abstract: 一种高效输入的预测方法和装置,其中,所述预测方法包括:检测用户的输入;根据用户已输入的历史文本和当前输入位置获得预测基础,所述预测基础为基于当前输入位置之前设定单词长度的已输入文本;基于所述预测基础在数据库中进行查询,获得预测结果,所述预测结果至少包括预测基础后续两级的预测候选词。本发明能够提供给用户更符合其预期的预测输入结果,提供更为流畅的预测输入体验。

    基于人工智能的文章分类方法及装置、设备与可读介质

    公开(公告)号:CN107168992A

    公开(公告)日:2017-09-15

    申请号:CN201710196073.6

    申请日:2017-03-29

    CPC classification number: G06F17/30707 G06F17/30687

    Abstract: 本发明提供一种基于人工智能的文章分类方法及装置、设备与可读介质。其方法包括:通过获取目标文章的文本;对目标文章的文本进行至少两种不同分词粒度的分词处理,得到各分词粒度对应的分词;根据目标文章的各分词粒度对应的分词和在目标分类体系中预先训练的各层级的打分标签模型,预测目标文章与各层级上的各个主题类别的相似度;根据目标文章与各层级上的各个主题类别的相似度以及预设的相似度阈值,对目标文章在各层级上进行分类。本发明的技术方案,不仅对文章进行分类的准确性较高,而且能够自动地实现对文章进行分类,省时、省力,对文章分类的效率非常高。

    一种基于量子游走的论文影响力评估方法

    公开(公告)号:CN107038211A

    公开(公告)日:2017-08-11

    申请号:CN201710105364.X

    申请日:2017-02-28

    CPC classification number: G06F17/30687

    Abstract: 本发明提出了一种基于量子游走的论文影响力评估方法,将论文的访问概率作为衡量论文重要性的关键,利用论文之间的引用关系,首次使用高阶马尔可夫模型对会议进行评估。该模型较零阶和某一固定阶的马尔科夫模型有更高的准确度,并且较某一固定阶模型有较高的效率。高阶马尔科夫模型考虑了随机游走的记忆性,当前节点向邻接节点转移的概率受前序节点的影响,但又不同于固定阶的马尔科夫模型,节点的阶数是依靠具体情况确定的。同时,本发明给出了相应的量子化实现方法,具有很强的前瞻性,为论文影响力的评估提供一种新方法,也提供了一种随机游走的并行化解决方案。

    一种文本相关性确定方法及装置

    公开(公告)号:CN106547822A

    公开(公告)日:2017-03-29

    申请号:CN201610865596.0

    申请日:2016-09-29

    CPC classification number: G06F17/30687

    Abstract: 本发明实施例公开了一种文本相关性确定方法及装置,预先提取针对目标领域高相似度和低相似度的文本样本中的每一个文本的特征词,并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率,所述方法包括:提取待处理目标文本的特征词;根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率,确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率;根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率,确定所述待处理目标文本与所述目标领域的相关性。应用本发明实施例,提高了目标文本与目标领域相关性判定的准确率。

    一种基于语言模型的医案搜索方法

    公开(公告)号:CN105843868A

    公开(公告)日:2016-08-10

    申请号:CN201610154543.8

    申请日:2016-03-17

    Applicant: 浙江大学

    Inventor: 张引 姜利成

    CPC classification number: G06F17/30663 G06F17/2765 G06F17/30687

    Abstract: 本发明公开了一种基于语言模型的医案搜索方法。步骤如下:1)通过OCR,文本结构化处理,从医案书籍中提取结构化单篇医案;2)使用中文分词工具,对所有医案进行包括分词和去停用词在内的预处理;3)用最大似然估计计算得到每篇医案的unigram语言模型;4)针对所有医案,统计各词频水平对应词语的个数,并使用统计到的数据拟合曲线;5)使用Good?Turing估计方法来平滑每篇医案的unigram语言模型;6)以所有医案集作为整体建立一个所有医案集的语言模型,并用于修正单篇医案的unigram语言模型;7)使用修正后的语言模型实现医案搜索。本发明实现了基于语言模型的信息检索,使用N?gram针对每篇医案建立各自的语言模型,使用语言模型生成文本的概率作为搜索结果排序依据。

    高效输入的预测方法和装置

    公开(公告)号:CN104102720A

    公开(公告)日:2014-10-15

    申请号:CN201410345173.7

    申请日:2014-07-18

    Inventor: 吴琨 戴云

    Abstract: 一种高效输入的预测方法和装置,其中,所述预测方法包括:检测用户的输入;根据用户已输入的历史文本和当前输入位置获得预测基础,所述预测基础为基于当前输入位置之前设定单词长度的已输入文本;基于所述预测基础在数据库中进行查询,获得预测结果,所述预测结果至少包括预测基础后续两级的预测候选词。本发明能够提供给用户更符合其预期的预测输入结果,提供更为流畅的预测输入体验。

    类似率算出装置和类似率算出程序

    公开(公告)号:CN1856788A

    公开(公告)日:2006-11-01

    申请号:CN200480027224.6

    申请日:2004-03-29

    CPC classification number: G06F17/30687

    Abstract: 本发明目的在于提供一种算出用于判断由技术文献构成的技术文献群彼此的技术类似性的指标的类似率算出装置。因此具有:输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置(365);输入技术信息的技术信息输入装置(371);对于第1技术文献群和第2技术文献群中包含的技术文献,检索包含上述输入了的技术信息的技术文献,把该检索出的技术文献按各个技术信息进行簇分解的簇分解装置(380);算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数的比的类似率算出装置(380);以及输出上述算出了的类似率的输出装置(365)。

    基于语言模型的信息检索方法

    公开(公告)号:CN1253821C

    公开(公告)日:2006-04-26

    申请号:CN03108486.9

    申请日:1999-02-09

    Applicant: 微软公司

    CPC classification number: G06F17/30687 G10L15/183 G10L15/197 Y10S707/99934

    Abstract: 一种语言模型(70)用于一个语音识别系统(60)中,它访问一个第一类、较小的数据存储器(72)和一个第二类、较大的数据存储器(74)。通过公式化表达一个基于包含在上述第一类数据存储器(72)中的信息的信息检索查询和查询上述第二类数据存储器(74),可以对语言模型(70)进行适配。从第二类数据存储器(74)中检索的信息用来适配该语言模型(70)。并且,语言模型用来从上述第二类数据存贮器(74)中检索信息。语言模型是基于第一类数据存储器(72)中的信息和第二类数据存储器(74)中的信息来构建的。在给定第一个语言模型和第二个语言模型之后,在第二类数据存储器(74)中的文档的复杂度就可以被确定了。文档的相关度是根据上述第一和第二复杂度来确定的。检索具有超过某一门限水平的相关度测度的文档。

    基于语言模型的信息检索和语音识别

    公开(公告)号:CN1171199C

    公开(公告)日:2004-10-13

    申请号:CN99804555.1

    申请日:1999-02-09

    Applicant: 微软公司

    CPC classification number: G06F17/30687 G10L15/183 G10L15/197 Y10S707/99934

    Abstract: 一种语言模型(70)用于一个语音识别系统(60)中,它访问一个第一类、较小的数据存储器(72)和一个第二类、较大的数据存储器(74)。通过公式化表达一个基于包含在上述第一类数据存储器(72)中的信息的信息检索查询和查询上述第二类数据存储器(74),可以对语言模型(70)进行适配。从第二类数据存储器(74)中检索的信息用来适配该语言模型(70)。并且,语言模型用来从上述第二类数据存贮器(74)中检索信息。语言模型是基于第一类数据存储器(72)中的信息和第二类数据存储器(74)中的信息来构建的。在给定第一个语言模型和第二个语言模型之后,在第二类数据存储器(74)中的文档的复杂度就可以被确定了。文档的相关度是根据上述第一和第二复杂度来确定的。检索具有超过某一门限水平的相关度测度的文档。

Patent Agency Ranking