章宗长
- 作品数:30 被引量:489H指数:4
- 供职机构:苏州大学更多>>
- 发文基金:国家自然科学基金苏州市科技计划项目(应用基础研究计划)江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术文化科学理学交通运输工程更多>>
- 深度强化学习综述被引量:461
- 2018年
- 深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已经取得了实质性的突破.该文首先阐述了三类主要的深度强化学习方法,包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习;其次对深度强化学习领域的一些前沿研究方向进行了综述,包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等.最后总结了深度强化学习在若干领域的成功应用和未来发展趋势.
- 刘全翟建伟翟建伟钟珊章宗长章鹏钟珊
- 关键词:人工智能
- 一种用于银行现金物流的ATM机清机装置及方法
- 本发明公开了一种用于银行现金物流的ATM机清机装置及方法,包括后台服务器、电子标签单元以及PDA设备,后台服务器还设置有电子围栏和与外设无线基站匹配的后台网络模块,电子标签单元包括人员FRID电子标签和设备FRID电子标...
- 朱斐刁红军刘全朱巧明伏玉琛周小科章宗长王辉任勇彭静玉
- 文献传递
- 一种迭代划分测试方法和系统
- 本申请提供一种迭代划分测试方法和系统,通过判断待测试用例集合中的待测试用例是否已全部执行完毕,如果是,依据已执行测试用例,对所述输入域D进行划分,将划分得到的2<Sup>m*n</Sup>个子输入域的中心点作为待测试用例...
- 章晓芳周倩章宗长周谊成
- 文献传递
- 基于多重门限机制的异步深度强化学习被引量:1
- 2019年
- 近年来,深度强化学习已经成为人工智能领域一个新的研究热点.深度强化学习在如Atari 2600游戏等高维度大状态空间任务中取得了令人瞩目的成功,但仍存在训练时间太长等问题.虽然异步深度强化学习通过利用多线程技术大幅度减少了深度强化学习模型所需的训练时间,但是,基于循环神经网络的异步深度强化学习算法依然需要大量训练时间,原因在于具有记忆能力的循环神经网络无法利用并行化计算加速模型训练过程.为了加速异步深度强化学习模型的训练过程,并且使得网络模型具有记忆能力,该文提出了一种基于多重门限机制的异步优势行动者-评论家算法.该模型主要有三个特点:一是通过使用多重门限机制使前馈神经网络具有记忆能力,使Agent能够通过记忆不同时间步的状态信息做出更优的决策;二是通过利用并行计算进一步加速Agent的训练过程,减少模型所需的训练时间;三是通过采用一种新的跳跃连接方式实现数据向更深的网络层传递,增强模型识别状态特征的能力,从而提升深度强化学习算法的稳定性和学习效果.该文通过Atari 2600游戏平台上的部分战略型游戏以及稀疏奖赏环境型游戏来评估新模型的性能.实验结果表明,与传统的异步深度强化学习算法相比,新模型能够以较少的时间代价来获得更优的学习效果.
- 徐进刘全章宗长章宗长周倩
- 关键词:循环神经网络
- 自动驾驶系统的规划方法
- 本发明公开了一种自动驾驶系统的规划方法。本发明一种自动驾驶系统的规划方法,包括:S1、当所述系统获取了当前道路环境图像g后,利用卷积神经网络中的过滤器提取道路图像的结构及路况信息φ,φ经由映射函数f<Sub>R</Sub...
- 陈子璇章宗长
- 基于相对熵深度逆强化学习的自动驾驶系统及方法
- 本发明涉及一种基于相对熵深度逆强化学习的自动驾驶系统,包括:(1)客户端:显示驾驶策略;(2)驾驶基础数据采集子系统:采集道路信息;(3)存储模块:与客户端及驾驶基础数据采集子系统连接并存储驾驶基础数据采集子系统所采集到...
- 林嘉豪章宗长
- 文献传递
- 基于部分感知马氏决策过程的机器人最优路径规划方法
- 本发明公开了基于部分感知马氏决策过程的机器人最优路径规划方法,机器人寻找到达目标位置的最优路径,以POMDP模型和SARSOP算法为基础,使用GLS搜索方法作为搜索时的启发式条件,在连续状态大规模观察空间问题中,使用本发...
- 刘全朱斐钱炜晟章宗长
- 文献传递
- 以开源项目为驱动的软件工程课程改革与研究被引量:4
- 2019年
- 分析当前软件工程教学存在的问题,提出以开源项目为驱动的软件工程课程改革,并分别从项目的准备、设计、实施3个阶段阐述具体的培养方法。
- 章宗长王艺深
- 关键词:课程改革软件工程开源项目
- 基于自动推理机制的接管巡航方法及系统
- 本发明公开了一种基于自动推理机制的接管巡航系统,该系统主要用于自动驾驶中,能够根据给定离线样本生成基于隐变量的多模态的驾驶策略网络,以实现通用自动驾驶功能。同时,该系统还可以在用户采用手动驾驶时根据手动驾驶的风格来自动生...
- 姜冲章宗长
- 文献传递
- 基于行动者评论家强化学习算法的循环网络人机对话方法
- 本发明涉及一种基于行动者评论家强化学习算法的循环网络人机对话方法。该系统由两个子系统构成:对话生成系统和情感分析系统。对话生成系统基于门循环单元网络模型,使用有标签的对话数据集进行训练。进一步地,我们对经过训练的模型使用...
- 王艺深章宗长陈浩然
- 文献传递