怎样实现模型在不同马尔科夫状态转换模型下的动作

【图文】运筹学课件第七章_动态规划_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
运筹学课件第七章_动态规划
上传于|0|0|文档简介
&&运筹学课件
大小:750.00KB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢02375_运筹学基础试题及答案_201004_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
02375_运筹学基础试题及答案_201004
上传于|0|0|文档简介
&&02375_运筹学基础试题及答案 201004
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩10页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢2016年湖北省“提升工程”远程培训在线测试题_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
2016年湖北省“提升工程”远程培训在线测试题
上传于|0|0|文档简介
&&2016年湖北省“提升工程”远程培训在线测试题
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩18页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
连续状态—动作间下强化学习方法的研究.pdf115页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
文档加载中...广告还剩秒
需要金币:300 &&
连续状态—动作间下强化学习方法的研究
你可能关注的文档:
··········
··········
摘要 摘要 作为~类具有多学科交叉特点的机器学习方法,强化学 J在复杂的决策优 化和控制问题中具有广泛的应用背景。但对于大规模或连续状态和动作空间的 马氏决策问题,强化学习面临着“维数灾”问题,从而限制了强化学习方法的 进一步推广应用。为此,本文主要在大规模和连续空间下强化学习的理论及算
法方面进行系统深入的研究。本文的主要内容和研究成果如下: 首先,研究了离散状态和离散动作空间的强化学习问题,提出了一种基于
资格迹机制的加权递归最小二乘多步O学习算法,能够实现在线增量式学习,
有效提高了算法的计算效率,并运用离散鞅理论对算法的收敛性进行了分析。 其次,针埘具有连续状态空间下的控制问题,设计出~种自适应的强化学
使得算法比较简单,同时实现了对状态空间的在线、自适应构建。 第三,提出了~‘类连续状态与连续动作空川F的加权O学习算法。利用RBF
网络实现标准的0学习,完成对离散动作效用值的逼近,然后采用加权规则对
离散动作的效用值进行加权,得到作用于系统的连续动作,从而实现了将Q学
习的应用扩展到具有连续动作空问的控制问题。 第四,利用模糊推理的可理解性与RBF网络的学习能力,首先构建了一类
基于模糊RBF网络的模糊强化学习体系结构,然后基于此体系结构,分别设计
结构紧凑、自适应和自学习的特点。 第血,设计出一种基于动态Elman网络预测模型的非线性直接多步预测控
制器,将时I’日J差分算法与BP算法相结合,对网络权值的实时调整进行渐进计算,
并采用单值预测控制算法进行控制量的在线滚动优化计算。该方法具有结构简
单、运算量小、速度快的特点,并且对系统参数的
正在加载中,请稍后...

我要回帖

更多关于 安卓沉浸式状态栏实现 的文章

 

随机推荐