一种基于奖励插补的流式优惠券推荐方法
摘要:
本发明通过互联网技术领域的方法,实现了一种基于奖励插补的流式推荐方法。系统从多个候选中给用户发放一个优惠券,随后观察用户是否会消费该优惠券并更新模型对应的参数为了得知其余选项的反馈,而由于优惠券推荐系统中的用户量达百万级,直接采用上下文批量赌博机(CBB)进行在线推荐的过程难以保证优惠券发放的实时性,这需要高效的用户奖励反馈插补实时扩充训练数据,并基于矩阵略图方法实现优惠券推荐的低资源消耗,达到节省网络资源、降低计算资源开销的目的。方案充分利用了多臂赌博机中的部分反馈机制,对奖励进行插补,使得算法效果有显著提升;其次引入了矩阵略图的方法,使得算法在保持较好的效果的同时,效率也得到显著提升。
0/0