一种基于文本信息的深度强化学习交互式推荐方法及系统

发明公开

CN111104595A 一种基于文本信息的深度强化学习交互式推荐方法及系统有权

请登陆查看更多内容

专利标题： 一种基于文本信息的深度强化学习交互式推荐方法及系统
申请号： CN201911297092.3

申请日： 2019-12-16
公开(公告)号： CN111104595A

公开(公告)日： 2020-05-05
发明人: 李国徽 , 王朝阳 , 李剑军 , 郭志强
申请人： 华中科技大学
申请人地址： 湖北省武汉市洪山区珞喻路1037号
专利权人： 华中科技大学
当前专利权人： 华中科技大学
当前专利权人地址： 湖北省武汉市洪山区珞喻路1037号
代理机构： 华中科技大学专利中心
代理商 李智
主分类号： G06F16/9535
IPC分类号： G06F16/9535 ; G06F16/35 ; G06F16/31 ; G06Q30/02 ; G06Q30/06

摘要：

本发明公开了一种基于文本信息的深度强化学习交互式推荐方法及系统，属于交互式个性化推荐领域，包括：基于文本信息将商品和用户分别转换为商品向量和用户向量，并对用户进行聚类；基于DDPG为每个用户类别建立推荐模型，并建立全局的环境模拟器；对于任意一个推荐模型，在第t轮交互中，构建动作候选集Can(ui,t)；策略网络以当前用户的状态st为输入，得到策略向量pt后，根据pt从Can(ui,t)中选出动作向量at；估值网络以pt和st为输入，计算Q值，用于评价pt的优劣；每一轮交互中，环境模拟器计算反馈奖励值，并更新当前用户的状态；反馈奖励值输出至估值网络，矫正估值网络，Q值反向传导至策略网络，调整策略网络，以获得更优的策略向量。本发明能够提高推荐效率和推荐准确度。

公开/授权文献

CN111104595B 一种基于文本信息的深度强化学习交互式推荐方法及系统公开/授权日：2023-04-07

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/90	.•与检索数据类型无关的数据库功能
G06F16/95	..••从网上检索
G06F16/953	...•••查询，例如通过使用网络搜索引擎
G06F16/9535	....••••基于用户配置文件和个性化自定义搜索