Patent search ap:("北京邮电大学") AND inv:"徐蔚然" Page 1

1.

发明公开
建模对话轮次信息的检索式闲聊对话打分方法失效

公开(公告)号：CN110309287A

公开(公告)日：2019-10-08

申请号：CN201910612036.8

申请日：2019-07-08

Applicant: 北京邮电大学

Inventor： 时代 , 李思 , 孙忆南 , 高升 , 徐雅静 , 徐蔚然 , 陈光

IPC: G06F16/332 , G06F17/27 , G06N3/04 , G06N3/08

Abstract: 本发明提供了一种引入对话历史信息的局部注意力机制的检索式对话系统，在开放领域的检索式对话中，传统的模型分为表示层，匹配层，集成层，预测层中，最后从候选集中选出和对话最匹配的候选回复。将表示层划分成单句表示和句间关系两部分进行分别建模。在建模对话的轮次信息时使用局部注意力机制，使得在训练模型时，注意力机制能够获得对于匹配任务更有帮助的轮次信息。局部注意力机制也能够提高模型对整个对话中不同位置内容的关注能力。针对对话中的每部分内容，对重要信息赋予较大权重，次要信息或干扰信息赋予较小权重，实现更好的回复匹配，加快训练速度，提高模型效率。

2.

发明公开
用于文字识别的训练样本自动挑选装置及其方法失效

公开(公告)号：CN1419214A

公开(公告)日：2003-05-21

申请号：CN02157956.3

申请日：2002-12-23

Applicant: 北京邮电大学

Inventor： 刘刚 , 徐蔚然 , 郭军 , 郑瑞虹 , 张洪刚

IPC: G06K9/00 , G06F3/00

Abstract: 本发明公开了一种用于文字识别的训练样本自动挑选装置和方法，所述的装置包括：样本输入装置、样本数据存储单元、训练装置、模型数据库、识别装置、识别结果分析装置、边界样本选择装置、挑选结果输出装置和控制处理装置。所述的方法是根据训练样本对于训练的作用，将训练样本分为好样本、边界样本、差样本三种类型，并通过训练样本进行训练、识别的结果计算广义距离差，根据广义距离差给出三种样本的定义，最后通过边界样本的选择实现训练样本的挑选。本发明的装置和方法思路简捷，能够实现训练样本的自动挑选，挑选结果更加准确，从而使得训练出的模型更加精确，有效提高文字识别系统的识别率。

3.

发明授权
一种基于结构化用户属性描述的个性化任务型对话系统有权

公开(公告)号：CN110851580B

公开(公告)日：2022-05-03

申请号：CN201911128620.2

申请日：2019-11-18

Applicant: 北京邮电大学

Inventor： 徐蔚然 , 何可清 , 吴亚楠 , 严渊蒙 , 徐红 , 刘思宏 , 刘子君

IPC: G06F16/332 , G06F16/335

Abstract: 本发明是一种基于结构化用户属性描述的个性化任务型对话系统，通过结构化三元组的形式来描述用户的个性，然后再使用与对话上下文紧密相关的动态编码方法捕获用户个性知识，最后再使用端到端的对话检索模型融合动态个性编码来选择最合适贴切的回复，从而避免生成大量通用、千篇一律的答复，达到千人千面的效果，提高用户在对话过程中的融入感。

4.

发明公开
一种基于嵌入式表示的自适应中文分词方法失效

公开(公告)号：CN107145483A

公开(公告)日：2017-09-08

申请号：CN201710269840.1

申请日：2017-04-24

Applicant: 北京邮电大学

Inventor： 李思 , 包祖贻 , 徐蔚然 , 高升

IPC: G06F17/27 , G06N3/04

CPC classification number: G06F17/2775 , G06N3/04

Abstract: 本发明实施例公开了一种基于嵌入式表示的自适应中文分词方法。属于信息处理领域。该方法的特征包括：分词网络和字符语言模型共享一个字符的嵌入式表示层。字符的嵌入式表示，一方面通过基于卷积神经网络的分词网络，得到待分词文本的隐多粒度局部特征；再经过一个前向网络层，得到字符的标签概率；最后应用标签推断，得到句子级别上的最优分词结果。另一方面，我们随机抽取未标注的文本，通过一个基于长短期记忆单元(LSTM)循环神经网络的字符语言模型，预测该字符下一个位置的字符，对分词网络进行约束；本发明通过字符语言模型建模中文不同领域文本中的字符共现关系，并通过嵌入式表示将信息传递给分词网络，使得分词的领域迁移能力得到提升，具有很大的实用价值。

5.

发明授权
同话题定位跟踪式论坛爬虫系统失效

公开(公告)号：CN101436197B

公开(公告)日：2010-09-08

申请号：CN200810180824.6

申请日：2008-11-25

Applicant: 北京邮电大学

Inventor： 杨溥 , 郭军 , 徐蔚然

IPC: G06F17/30

Abstract: 本发明公开了一种同话题定位跟踪式论坛爬虫系统，包括以下部件：非文本粗略过滤器，非文本精确过滤器，超链接补全器，纯网页超链接存储库，同话题定位跟踪器，同话题网页超链接存储库，网页组数据下载器，统一编号器，网页组数据存储库，以及纯网页超链接供应器。通过应用本发明所描述的系统，可以有效地解决爬虫系统采集论坛数据大量冗余和凌乱无序的问题；可以为搭建论坛搜索引擎系统的重要组成部分——论坛数据采集系统提供通用可靠的搭建框架；显著降低论坛爬虫系统的开发难度，进一步有效地降低论坛搜索引擎系统开发成本。

6.

发明公开
并行式关联布告栏爬虫系统无效

公开(公告)号：CN101446953A

公开(公告)日：2009-06-03

申请号：CN200810180822.7

申请日：2008-11-25

Applicant: 北京邮电大学

Inventor： 杨溥 , 郭军 , 徐蔚然

IPC: G06F17/30

Abstract: 本发明公开了一种并行式关联布告栏爬虫系统，包括以下部件：并行爬取器，超链接剥离器，数据分拣器，网页超链接存储器，数据关联器，存储器，以及超链接投递器。通过应用本发明所描述的系统，可以为开发复式综合布告栏搜索引擎系统的爬虫系统提供通用的设计架构；可以有效地快速地将多个布告栏信息综合分类，并且获得分类关联的信息数据集；从而为复式综合布告栏搜索引擎系统的其他子系统的设计和开发创造便利的条件和基础，尤其是给检索子系统提供设计开发的便利，大大地提高系统的开发效率和降低系统的开发成本。

7.

发明公开
布告栏搜索引擎的爬虫系统构建方法无效

公开(公告)号：CN101404025A

公开(公告)日：2009-04-08

申请号：CN200810180821.2

申请日：2008-11-25

Applicant: 北京邮电大学

Inventor： 杨溥 , 郭军 , 徐蔚然

IPC: G06F17/30

Abstract: 本发明公开了一种布告栏搜索引擎的爬虫系统构建方法，该方法包括下列步骤：(1)分析处理网页页面；(2)分析和归类网页内超链接和超链接的指向数据；(3)重复执行步骤(1)和(2)，直到超链接全部处理完为止。通过应用本发明所描述的方法，可以为搭建布告栏搜索引擎系统所需的重要子系统——布告栏爬虫系统提供通用的设计方法；可以为布告栏搜索引擎提供清晰类化的数据集，从而简单便利化布告栏搜索引擎的其他部分的设计和开发，大幅度地降低爬虫子系统和搜索引擎大系统的开发成本。

8.

发明授权
基于贝叶斯分类器的文字字体判断设备及其方法失效

公开(公告)号：CN1234094C

公开(公告)日：2005-12-28

申请号：CN02157957.1

申请日：2002-12-23

Applicant: 北京邮电大学

Inventor： 徐蔚然 , 刘刚 , 郭军 , 张洪刚

IPC: G06K9/00 , G06K9/46 , G06K9/72

Abstract: 本发明公开了一种基于贝叶斯分类器的文字字体判断设备及其方法。所述的设备包括：文字图像输入装置与前端处理装置、特征提取器、训练样本存储器、PCA分析器，PCA变换器、分类器参数估计器、贝叶斯分类器、可信度估计装置、判断结果输出装置和控制处理器。根据训练样本，利用统计处理方法自动学习知识，从而准确判断文字字体的设备。该设备结构化好，操作简单，判别精度高，并且对于被印章和底纹严重污染的文字，同样可以获得高精度，只需4～5个汉字即可准确判断字体，而且人工设定参数少，不依赖人的经验，回避了复杂而且容易出错的文字切分步骤，不需要对图像进行二值化。该设备适用于对识别精度要求严格的文字识别系统中，如银行支票识别系统、信函地址识别系统、表格识别系统等。

9.

发明公开
生成式语言模型训练方法、装置及设备审中-实审

公开(公告)号：CN117370502A

公开(公告)日：2024-01-09

申请号：CN202210738369.7

申请日：2022-06-27

Applicant: 成都鼎桥通信技术有限公司 , 北京邮电大学

Inventor： 李燮 , 龚萍 , 张卓 , 张轶博 , 徐蔚然 , 周天宇 , 刘晓曦 , 王睿

IPC: G06F16/332 , G06F40/30 , G06F17/16 , G06N3/0442 , G06N3/0455 , G06N3/08

Abstract: 本发明提供的一种生成式语言模型训练方法、装置及设备，所述方法将多组对话数据输入到生成式语言模型；基于所述生成式语言模型，确定每一组对话数据中对话上文和对话下文分别对应的语义表征，以及每一组对话数据对应的预测响应；根据多组对话数据对应的语义表征，确定互信息矩阵；所述互信息矩阵中的每一数值用于表示对应的两个语义表征之间的相关程度；根据所述互信息矩阵和多组对话数据对应的预测响应，对所述生成式语言模型进行更新，通过基于互信息矩阵对模型进行更新，使得模型输出的预测响应与对话上文的语义表征之间的互信息增大，减少输出普适回复的预测响应，从而提高生成的响应的准确度。

10.

发明公开
一种基于结构化用户属性描述的个性化任务型对话系统有权

公开(公告)号：CN110851580A

公开(公告)日：2020-02-28

申请号：CN201911128620.2

申请日：2019-11-18

Applicant: 北京邮电大学

Inventor： 徐蔚然 , 何可清 , 吴亚楠 , 严渊蒙 , 徐红 , 刘思宏 , 刘子君

IPC: G06F16/332 , G06F16/335

Abstract: 本发明是一种基于结构化用户属性描述的个性化任务型对话系统，通过结构化三元组的形式来描述用户的个性，然后再使用与对话上下文紧密相关的动态编码方法捕获用户个性知识，最后再使用端到端的对话检索模型融合动态个性编码来选择最合适贴切的回复，从而避免生成大量通用、千篇一律的答复，达到千人千面的效果，提高用户在对话过程中的融入感。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification