基于股指成分股基本面和技术面数据构建了时序股票关联网络,然后利用深度图神经网络学习股票关联网络层次化表征,以端到端的方式获得候选预测信号.在此基础上,提出了一种考虑动作评估反馈的深度强化学习方法(Action Evaluation Feedback based Deep Q-Learning, AEF-DQN),旨在将不同的候选预测信号融入智能体的动作空间,并基于股票关联网络层次化表征、股票市场整体运行状态和历史动作评估反馈学习环境状态;借鉴前景理论中的参照依赖特性估计奖励值函数,从而建立状态、动作与奖励值之间的映射关系.最后,采用沪深300指数、标普500指数、英国富时100指数和日经225指数的成分股历史数据,构造了股指期货交易模拟器,在投资胜率、最大回撤率、阿尔法比率和夏普比率4个回测指标上对股指预测模型展开实证分析.研究结果表明:1)通过层次化聚合股票关联网络的节点属性信息可以动态捕捉不同行业对股指价格波动的影响,进而可提升预测方法的准确率;2)考虑动作评估反馈的深度强化学习结构可智能化选择适用于当前股票市场环境的最优模型结构,进而可提升预测方法的鲁棒性.