公共文化服务平台

2024年8月10日星期六

|

欢迎来到叙永县图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

文锋: 作品数：10 被引量：40H指数：4; 供职机构：中国科学技术大学信息科学技术学院自动化系更多>>; 发文基金：国家自然科学基金面向21世纪教育振兴行动计划更多>>; 相关领域：自动化与计算机技术理学更多>>

合作作者

陈宗海中国科学技术大学信息科学技术学...
陈春林中国科学技术大学信息科学技术学...
周光明中国科学技术大学信息科学技术学...
吴晓曙中国科学技术大学信息科学技术学...
聂建斌中国科学技术大学信息科学技术学...

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

7篇期刊文章
2篇会议论文
1篇学位论文

领域

9篇自动化与计算...
1篇理学

主题

5篇强化学习方法
3篇最小二乘
3篇LQR
2篇神经网
2篇神经网络
2篇聚类
2篇聚类算法
2篇均值聚类
2篇均值聚类算法
2篇和值
2篇RLS
2篇TD
2篇K-均值
2篇K-均值聚类
2篇K-均值聚类...
1篇递推
1篇递推最小二乘
1篇动态规划
1篇设计方法
1篇神经网络控制

机构

10篇中国科学技术...

作者

10篇文锋
8篇陈宗海
3篇陈春林
2篇周光明
1篇王智灵
1篇卓睿
1篇薛福珍
1篇望安全
1篇柏洁
1篇刘勇
1篇聂建斌
1篇吴晓曙

传媒

3篇控制与决策
1篇计算机研究与...
1篇模式识别与人...
1篇计算机仿真
1篇仪表技术与传...
1篇’2004系...
1篇中国自动化学...

年份

1篇2007
4篇2006
1篇2005
2篇2004
1篇2003
1篇2002

共 10 条记录，以下是 1-10

全选清除导出

排序方式：

基于复杂过程简化模型的DHP学习控制被引量：3: 2006年; 提出一种基于简化模型的DHP(Dual Heuristic Programming)方法的学习控制,避免了标准DHP方法需要被控对象的精确模型来求得对于状态和控制动作的Jacobian矩阵,而是利用简化过程对象模型获得近似Jacob ian矩阵,实现学习控制的需要.生化反应器定值控制的仿真结果表明,该方法加快了学习过程,并对更大范围的参数变化具有鲁棒性.; 陈宗海文锋; 关键词：生化反应器简化模型

基于节点生长k-均值聚类算法的强化学习方法被引量：17: 2006年; 处理连续状态强化学习问题,主要方法有两类:参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情况下该强化学习方法的算法步骤.在离散动作的MountainCar问题和连续动作的双积分问题上进行仿真实验.实验结果表明,该方法能够根据状态在连续空间的分布,自动调整划分的精度,实现对于连续状态空间的自适应划分,并学习到最佳策略.; 陈宗海文锋聂建斌吴晓曙; 关键词：K-均值聚类算法

基于自适应评价的非线性系统神经网络控制被引量：5: 2007年; 针对一类非线性系统,提出了一种自适应评价方法.该方法可以控制系统输出对参考信号进行跟踪,其评价函数可直接解析求出.该方法只需一个动作网络用于产生控制动作,并且方法中的网络权值初始化可随机选取.使用Lyapunov方法对整个系统的动态性能进行分析,证明了在一定条件下此方法能保证闭环误差及网络权值一致最终有界.仿真结果与理论分析相一致,证明了所提出方法的有效性.; 陈宗海文锋王智灵; 关键词：自适应评价神经网络 LYAPUNOV方法

一种基于强化学习的控制算法研究被引量：4: 2003年; 该文在阐述了强化学习的基本机制的基础上 ,根据复杂工业过程的非线性、多变量、大时延、强耦合的特点 ,提出了一种将基于案例的学习和强化学习相结合的控制算法 ,并对重油分馏塔进行了控制效果的仿真实验 ,控制结果显示了算法能够很好地满足控制任务。; 望安全陈宗海文锋

一种用于LQR控制问题的强化学习方法被引量：1: 2006年; 现有强化学习方法的收敛性分析大多针对离散状态问题,对于连续状态问题强化学习的收敛性分析仅局限于简单的 LQR 控制问题.本文对现有两种用于 LQR 问题收敛的强化学习方法进行分析,针对存在的问题,提出一种只需部分模型信息的强化学习方法.该方法使用递推最小二乘 TD(RLS-TD)方法估计值函数参数,递推最小二乘方法(RLS)估计贪心改进策略.并给出理想情况下此方法收敛的理论分析.仿真实验表明该方法收敛到最优控制策略.; 文锋陈宗海周光明陈春林; 关键词：递推最小二乘最优控制

基于RLS-TD和值梯度的强化学习方法用于LQR控制问题: 本文针对状态连续的LQR控制问题,提出了一种新的只需部分模型信息的强化学习方法.该方法采用动作-评价者结构,在评价者训练中使用递推最小二乘TD(RLS-TD)方法估计值函数参数,在动作者训练中使用值梯度下降方法改进控制策...; 文锋陈宗海陈春林

连续状态自适应离散化基于K-均值聚类的强化学习方法被引量：10: 2006年; 使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习,使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CM AC网络的强化学习方法进行比较,结果表明该方法具有节省存储空间和缩短计算时间的优点.; 文锋陈宗海卓睿周光明; 关键词：K-均值聚类算法

基于RLS-TD和值梯度的强化学习方法用于LQR控制问题: 本文针对状态连续的LQR控制问题,提出了一种新的只需部分模型信息的强化学习方法。该方法采用动作-评价者结构,在评价者训练中使用递推最小二乘TD（RLS-TD）方法估计值函数参数,在动作者训练中使用值梯度下降方法改进控制策...; 文锋陈宗海陈春林; 关键词：最小二乘; 文献传递

多变量时滞对象控制的DCS实现: 2002年; 采用软件控制仪表的概念 ,在DCS中实现了基于多变量频域理论和多变量Smith预估技术的多变量时滞对象的控制 ,并成功应用于一大型啤酒发酵计算机控制系统 ,大大提高了系统的控制精度和DCS的自动化水平。; 薛福珍文锋柏洁刘勇; 关键词：解耦 DCS 集散控制系统

基于自适应评价者设计方法的学习控制研究: 本论文研究基于ACD方法的学习控制，着重研究在不同已知程度的模型信息条件下，如何保证ACD方法的控制性能。本论文工作主要按照无模型信息、模型信息部分已知和模型信息完全已知三种情况分别展开。　在无模型信息的情况下，主要...; 文锋; 关键词：动态规划神经网络; 文献传递

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有@叙永县图书馆 2015－2016 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张