毕业设计--基于强化学习的Gambler策略研究与评价
《毕业设计--基于强化学习的Gambler策略研究与评价》由会员分享,可在线阅读,更多相关《毕业设计--基于强化学习的Gambler策略研究与评价(38页珍藏版)》请在毕设资料网上搜索。
1、 本 科 毕 业 设 计本 科 毕 业 设 计 ( 论 文论 文 ) 学院学院(部部) 计算机科学与技术学院计算机科学与技术学院 题目题目 基于强化学习的基于强化学习的 Gambler 策略研究与评价策略研究与评价 年级年级 专业专业 软件工程(嵌入式)软件工程(嵌入式) 班级班级 学号学号 姓名姓名 指导教师指导教师 职称职称 论文提交日期论文提交日期 I 目 录 摘 要 . 1 ABSTRACT 2 第一章 前 言 3 1.1 背景概述 3 1.2 强化学习的应用 3 1.3 论文结构安排 . 4 第二章 强化学习 5 2.1 强化学习的原理和模型 5 2.2 强化学习系统的主要组成要素.
2、 6 2.3 马尔可夫决策过程 (MDP) . 7 2.4 强化学习的基本算法 8 2.4.1 动态规划(Dynamic Programming, DP) 8 2.4.2 蒙特卡罗算法 (Monte Carlo method, MC) . 9 2.5 强化学习中有待解决的问题 9 2.6 本章小结 9 第三章 动态规划分析. 10 3.1 动态规划的适用条件 10 3.1.1 最优化原理 . 10 3.1.2 无后向性 . 10 3.1.3 子问题的重叠性 10 3.2 算法流程 11 3.2.1 策略评估 . 11 II 3.2.2 策略改进 . 11 3.3 寻找最优策略 . 12 3.3
3、.1 策略迭代 . 12 3.3.2 值迭代. 12 3.4 动态规划的效率 . 13 3.5 本章小结 13 第四章 实验平台分析与实现 . 14 4.1 实验平台描述 . 14 4.1.1 系统概述 . 14 4.1.2 系统运行环境 . 14 4.2 Gambler 问题仿真 14 4.3 实验平台概要设计 . 15 4.3.1 底层框架模型 . 15 4.3.2 Gambler 问题模型 . 17 4.3.3 界面设计 . 17 4.4 实验平台的详细设计 19 4.4.1 类和接口 . 19 4.4.2 核心算法示例 . 22 4.5 本章小结 25 第五章 实验结果分析. 26 5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中设计图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 基于 强化 学习 Gambler 策略 研究 评价
