一种基于决策者偏好的人机交互方法
Abstract:
本发明属于人机交互技术领域,具体涉及一种基于决策者偏好的人机交互方法,能够精确捕捉和量化决策者对于不同策略的偏好,选出最佳决策结果。该方法的具体过程为:与仿真环境交互进行轨迹数据生成;随机截取设定长度的轨迹数据,并两两组合进行决策者偏好标签标注,构成用于训练的样本数据;利用所述样本数据进行神经网络训练,神经网络输出每一时间步#imgabs0#对应的偏好得分和对应权重,得到偏好预测结果,计算损失函数并更新神经网络参数;将给定的若干个均衡策略输入仿真环境中,获得轨迹数据,利用训练好的神经网络获得轨迹数据的偏好得分和对应权重,进一步计算出最优的策略。
Patent Agency Ranking
0/0