模型训练及干预策略确定方法、装置、电子设备
摘要:
本发明公开了一种模型训练及干预策略确定方法、装置、电子设备和存储介质。其中,该模型训练包括:从经验数据池中获取训练样本集;训练样本集中的训练样本包括:第一状态参数、动作参数、奖励参数和第二状态参数;第一状态参数表征影响老年人自我管理能力的变量,动作参数表征第一模型针对第一状态参数输出的干预策略,第二状态参数表征老年人执行干预策略后的状态参数;奖励参数表征第一模型针对干预策略输出的反馈奖励值;基于训练样本集训练第二模型;第一模型和第二模型为深度Q网络模型,第一模型和第二模型的网络结构相同,第二模型的模型参数用于更新第一模型的模型参数,第一模型用于根据老年人的状态参数输出干预策略。
0/0