公共文化服务平台

认知无线电中一种n步串行信道感知策略被引量：1: 2013年; 为了提高频谱感知的整体性能,基于链路层多认知用户集中式协作感知思想,提出一种带缓冲区的双周期n步串行协作感知机制。该机制利用多认知用户分时、分段协作提高频谱感知效率,建立频谱池缩短被中断用户切换延迟时间,使用离散马尔可夫模型对感知参数建模,通过求解最优搜索步长和双感知周期比,提高认知用户频谱感知性能和QoS。仿真实验结果显示,该算法在感知效率、被迫中断概率和中断时间方面均优于随机搜索和传统串行搜索策略。; 郑红燕冯延蓬仵博孟宪军; 关键词：认知无线电频谱感知协作感知马尔可夫决策过程

基于信念重用的WSNs能量高效跟踪: 2012年; 针对无线传感器网络(WSNs)中目标跟踪性能与传感器能量消耗难以平衡问题,提出一种信念重用的WSNs能量高效跟踪算法。使用部分可观察马尔可夫决策过程(POMDPs)对动态不确定环境下的WSNs进行建模,将跟踪性能与能量消耗平衡优化问题转化为POMDPs最优值函数求解过程;采用最大报酬值启发式查找方法获得跟踪性能的逼近最优值;采用信念重用方法避免重复获取信念,有效降低传感器通信带来的能量消耗。实验结果表明:信念重用算法能够有效优化跟踪性能与能量消耗之间的平衡,达到以较低的能量消耗获得较高跟踪性能的目的。; 仵博吴敏郑红燕冯延蓬; 关键词：无线传感器网络部分可观察马尔可夫决策过程

Cooperative learning with joint state value approximation for multi-agent systems被引量：1: 2013年; This paper relieves the ＇curse of dimensionality＇ problem, which becomes intractable when scaling rein- forcement learning to multi-agent systems. This problem is aggravated exponentially as the number of agents increases, resulting in large memory requirement and slowness in learning speed. For cooperative systems which widely exist in multi-agent systems, this paper proposes a new multi-agent Q-learning algorithm based on decomposing the joint state and joint action learning into two learning processes, which are learning individual action and the maximum value of the joint state approximately. The latter process considers others＇ actions to insure that the joint action is optimal and supports the updating of the former one. The simulation results illustrate that the proposed algorithm can learn the optimal joint behavior with smaller memory and faster leamin~ soeed comoared with friend-O learnin~ and indet^endent learning.; Xin CHENGang CHENWeihua CAOMin WU; 关键词：Q-LEARNING DECOMPOSITION

基于等级变异的克隆选择算法被引量：2: 2011年; 提出一种克隆选择算法——基于等级变异的克隆选择算法.为提高进化中变异的有效性,算法将变异尺度分成若干等级,低等级变异有利于跳出局部最优解,实现全局寻优;高等级变异有利于局部的高精度寻优.此外,算法在进化过程中记忆父抗体的变异尺度等级等信息,并制定有效的变异策略运用这些信息以指导后续进化过程.采用标准函数测试并与其它优化算法进行对比.实验结果表明,该算法具有收敛速度快、全局搜索能力强、精度高和鲁棒性好的优点.; 宋丹赖旭芝吴敏; 关键词：免疫记忆克隆选择全局优化

基于Monte Carlo粒子滤波的POMDPs在线算法被引量：1: 2013年; 针对部分可观察马尔可夫决策过程(POMDPs)的信念状态空间是一个双指数规模问题,提出一种基于Monte Carlo粒子滤波的POMDPs在线算法.首先,分别采用粒子滤波和粒子映射更新和扩展信念状态,建立可达信念状态与或树;然后,采用分支界限裁剪方法对信念状态与或树进行裁剪,降低求解规模.实验结果表明,所提出算法具有较低的误差率和较快的收敛性,能够满足系统实时性的要求.; 仵博吴敏; 关键词：部分可观察马尔可夫决策过程 MONTE 粒子滤波

基于概率模型的动态分层强化学习被引量：2: 2011年; 为解决大规模强化学习中的"维度灾难"问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转移概率进行建模,建立基于概率参数的关键状态识别方法,进而通过聚类动态生成若干状态子空间和学习分层结构下的最优策略.仿真结果表明该算法能显著提高复杂环境下智能体的学习效率,适用于未知环境中的大规模学习.; 戴朝晖袁姣红吴敏陈鑫; 关键词：贝叶斯学习智能体

基于变异记忆矩阵的克隆选择算法: 2011年; 利用免疫系统的免疫记忆机制,提出一种适于函数优化的基于变异记忆矩阵的克隆选择算法.首先,利用变异记忆矩阵保存进化中有用的变异信息,以引导抗体的克隆和变异操作,加强局部搜索能力;然后,利用当代种群的综合信息生成新抗体进入种群,以加强全局搜索能力;最后,对最优抗体进行自学习,以提高算法结果的精度.标准函数仿真表明,该算法适合求解复杂函数优化问题,具有收敛速度快、全局收敛能力强、精度高、鲁棒性强的优点.; 宋丹赖旭芝吴敏张传科; 关键词：免疫记忆克隆选择全局优化

基于点的POMDPs在线值迭代算法被引量：3: 2013年; 部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDPs)是动态不确定环境下序贯决策的理想模型,但是现有离线算法陷入信念状态"维数灾"和"历史灾"问题,而现有在线算法无法同时满足低误差与高实时性的要求,造成理想的POMDPs模型无法在实际工程中得到应用.对此,提出一种基于点的POMDPs在线值迭代算法(point-based online value iteration,简称PBOVI).该算法在给定的可达信念状态点上进行更新操作,避免对整个信念状态空间单纯体进行求解,加速问题求解;采用分支界限裁剪方法对信念状态与或树进行在线裁剪;提出信念状态结点重用思想,重用上一时刻已求解出的信念状态点,避免重复计算.实验结果表明,该算法具有较低误差率、较快收敛性,满足系统实时性的要求.; 仵博吴敏佘锦华; 关键词：部分可观察马尔可夫决策过程与或树

基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法被引量：1: 2013年; 针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明,该算法具有较低误差率和较高收敛性。; 仵博陈鑫郑红燕冯延蓬; 关键词：信息处理部分可观察马尔可夫决策过程非负矩阵分解维数灾

基于高斯回归的连续空间多智能体最佳响应策略学习: 在多智能体的实际应用环境中,泛化往往是多智能体策略学习算法应用于连续状态空间需要解决的关键问题之一本文提出一种基于高斯回归的连续空间多智能体最佳响应策略学习算法该算法通过定义降维的Q函数强调学习智能体对其它智能体策略的适...; 魏海军陈鑫吴敏曹卫华; 关键词：多智能体系统

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家教育部博士点基金(20090162120068)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家教育部博士点基金(20090162120068)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈