搜索到13830篇“ OPTION“的相关文章
基于符号知识的选项发现方法
2025年
基于选项(Option)的层次化策略学习是分层强化学习领域的一种主要实现方式。其中,选项表示特定动作的时序抽象,一组选项以多层次组合的方式可解决复杂的强化学习任务。针对选项发现这一目标,已有的研究工作使用监督或无监督方式从非结构化演示轨迹中自动发现有意义的选项。然而,基于监督的选项发现过程需要人为分解任务问题并定义选项策略,带来了大量的额外负担;无监督方式发现的选项则难以包含丰富语义,限制了后续选项的重用。为此,提出一种基于符号知识的选项发现方法,只需对环境符号建模,所得知识可指导环境中多种任务的选项发现,并为发现的选项赋予符号语义,从而在新任务执行时被重复使用。将选项发现过程分解为轨迹切割和行为克隆两阶段步骤:轨迹切割旨在从演示轨迹提取具备语义的轨迹片段,为此训练一个面向演示轨迹的切割模型,引入符号知识定义强化学习奖励评价切割的准确性;行为克隆根据切割得到的数据监督训练选项,旨在使选项模仿轨迹行为。使用所提方法在多个包括离散和连续空间的领域环境中分别进行了选项发现和选项重用实验。选项发现中轨迹切割部分的实验结果显示,所提方法在离散和连续空间环境中的切割准确率均高出基线方法数个百分点,并在复杂环境任务的切割中提高到20%。另外,选项重用实验的结果证明,相较于基线方法,赋予符号语义增强的选项在新任务重用上拥有更快的训练速度,并在基线方法无法完成的复杂任务中仍然得到良好收敛。
王麒迪沈立炜吴天一
关键词:分层强化学习马尔可夫决策过程
Optimizing care for gastric cancer with overt bleeding:Is systemic therapy a valid option?
2025年
Gastric cancer(GC)and gastroesophageal junction cancer(GEJC)represent a significant burden globally,with complications such as overt bleeding(OB)further exacerbating patient outcomes.A recent study by Yao et al evaluated the effectiveness and safety of systematic treatment in GC/GEJC patients presenting with OB.Using propensity score matching,the study balanced the comparison groups to investigate overall survival and treatment-related adverse events.The study's findings emphasize that systematic therapy can be safe and effective and contribute to the ongoing debate about the management of advanced GC/GEJC with OB,highlighting the complexities of treatment decisions in these high-risk patients.
Emad Qayed
关键词:HEMOSTASIS
Metabolic reprogramming: a new option for the treatment of spinal cord injury
2025年
Spinal cord injuries impose a notably economic burden on society,mainly because of the severe after-effects they cause.Despite the ongoing development of various therapies for spinal cord injuries,their effectiveness remains unsatisfactory.However,a deeper understanding of metabolism has opened up a new therapeutic opportunity in the form of metabolic reprogramming.In this review,we explore the metabolic changes that occur during spinal cord injuries,their consequences,and the therapeutic tools available for metabolic reprogramming.Normal spinal cord metabolism is characterized by independent cellular metabolism and intercellular metabolic coupling.However,spinal cord injury results in metabolic disorders that include disturbances in glucose metabolism,lipid metabolism,and mitochondrial dysfunction.These metabolic disturbances lead to corresponding pathological changes,including the failure of axonal regeneration,the accumulation of scarring,and the activation of microglia.To rescue spinal cord injury at the metabolic level,potential metabolic reprogramming approaches have emerged,including replenishing metabolic substrates,reconstituting metabolic couplings,and targeting mitochondrial therapies to alter cell fate.The available evidence suggests that metabolic reprogramming holds great promise as a next-generation approach for the treatment of spinal cord injury.To further advance the metabolic treatment of the spinal cord injury,future efforts should focus on a deeper understanding of neurometabolism,the development of more advanced metabolomics technologies,and the design of highly effective metabolic interventions.
Jiangjie ChenJinyang ChenChao YuKaishun XiaBiao YangRonghao WangYi LiKesi ShiYuang ZhangHaibin XuXuesong ZhangJingkai WangQixin ChenChengzhen Liang
关键词:AXONSGLYCOLYSISNEUROPROTECTION
基于互信息优化的Option-Critic算法
2024年
时序抽象作为分层强化学习的重要研究内容,允许分层强化学习智能体在不同的时间尺度上学习策略,可以有效解决深度强化学习难以处理的稀疏奖励问题。如何端到端地学习到优秀的时序抽象策略一直是分层强化学习研究面临的挑战。Option-Critic(OC)框架在Option框架的基础上,通过策略梯度理论,可以有效解决此问题。然而,在策略学习过程中,OC框架会出现Option内部策略动作分布变得十分相似的退化问题。该退化问题影响了OC框架的实验性能,导致Option的可解释性变差。为了解决上述问题,引入互信息知识作为内部奖励,并提出基于互信息优化的Option-Critic算法(Option-Critic Algorithm with Mutual Information Optimization,MIOOC)。MIOOC算法结合了近端策略Option-Critic(Proximal Policy Option-Critic,PPOC)算法,可以保证下层策略的多样性。为了验证算法的有效性,把MIOOC算法和几种常见的强化学习方法在连续实验环境中进行对比实验。实验结果表明,MIOOC算法可以加快模型学习速度,实验性能更优,Option内部策略更有区分度。
栗军伟刘全徐亚鹏
关键词:分层强化学习互信息
基于兴趣函数的多样化Option-Critic算法
2024年
Option框架作为分层强化学习的一种常用时序抽象方法,允许智能体在不同的时间尺度上学习策略,可以有效解决稀疏奖励问题.为了保证Option可以引导智能体访问更多的状态空间,一些方法通过引入基于互信息的内部奖励和终止函数来提升Option内部策略的多样性.但这会导致算法学习速度慢和内部策略的知识迁移能力低等问题,严重影响了算法性能.针对以上问题,提出基于兴趣函数优化的多样化Option-Critic算法(diversity-enriched Option-Critic algorithm with interest functions,DEOC-IF).该算法在多样化Option-Critic算法(diversity-enriched Option-Critic,DEOC)的基础上,通过引入兴趣函数约束上层策略对Option内部策略的选择,既保证了Option集合的多样性,又使得学习到的内部策略可以关注状态空间的不同区域,有利于提高算法的知识迁移能力,加快学习速度.此外,DEOC-IF算法引入一种新的兴趣函数更新梯度,有利于提高算法的探索能力.为了验证算法的有效性和知识迁移能力,分别在4房间导航任务、Mujoco和MiniWorld实验环境中,将DEOC-IF算法与其他最新算法进行对比实验.结果表明,DEOC-IF算法具有更好的性能优势和策略迁移能力.
栗军伟刘全黄志刚徐亚鹏
重视血管co-option在肝癌治疗中的潜在机制及治疗靶点作用
2024年
肝细胞癌(hepatocellular carcinoma,HCC)是最常见的癌症之一.HCC起病隐匿,多数患者首次诊断时已丧失根治性手术的机会,系统性的抗肿瘤治疗成为中晚期HCC治疗的关键.其中抗肿瘤药物出现耐药性是HCC疗效不佳,影响HCC患者预后的重要原因之一,如何改善HCC的治疗效果仍是现今研究的重点.尽管国内外对以新生血管生成为基础的抗肿瘤药物的研究不断深入,但对共用正常组织血管来满足肿瘤自身代谢需求的血管共选择(vascular co-option)模式研究较少,其对HCC的进展及抗肿瘤治疗的影响也未被人考虑在内.本文就血管co-option对HCC多种治疗方式的影响及相关机制进行概述,以期为改善HCC耐药奠定理论基础.
齐明皓李景涛翟博
关键词:肝癌肿瘤耐药新生血管生成抗血管生成治疗
弹性退休制度下谁更愿意延迟退休?——基于Option Value模型的微观模拟
2024年
人口老龄化背景下延迟退休年龄、建立弹性退休制度是大势所趋。养老金激励是弹性退休制度的重要内容。建立期权价值模型和养老金给付及奖惩因子模型,基于中国家庭收入调查项目(CHIP2018)的数据,对不同特征人群的养老金峰值、期权价值、内部报酬率进行模拟。研究发现:养老金总财富随退休年龄“先增后减”,男性的峰值年龄早于女性;引入养老金“奖惩”机制有助于提高最优退休年龄,激励劳动者延迟退休;考虑闲暇偏好的异质性,男性参保者更倾向于早退休,而女性参保者特别是女性较高收入群体更愿意延迟退休;厌恶风险的参保者更有可能选择早退休。建议尽早建立弹性退休年龄政策体系,增加劳动者的选择权和制度灵活性;引入精算调节因子构建养老金奖惩机制,完善养老保险待遇计发办法。
郭秀云李悦心
关键词:延迟退休
科创50ETF期权价值评估及影响因素研究
2024年
科创板期权产品的开设和交易有利于提升标的资产的定价效率和市场流动性。研究以科创50ETF期权为研究对象,采用二叉树模型对科创50ETF期权的理论价值进行评估,并通过利率、波动率等不确定性因素对期权价值进行敏感性分析。结果表明:与市场价值进行比较,发现大多数时间内科创50ETF期权价格是被高估的,并且看涨期权的定价误差高于看跌期权,虚值期权的定价误差高于实值期权;当波动率为0.3或利率为0.04时,理论价格最接近市场价格。基于结论提出两点建议:一是适时推出科创板期权产品;二是完善金融产品体系,提升风险管理质效。
梁馨月张胜良
关键词:二叉树模型期权定价
基于深度学习的上证50ETF期权定价研究
2024年
近年来,以深度学习为代表的机器学习方法在金融领域中的应用越来越广泛。本文尝试将深度学习方法引入欧式期权定价研究中,构建了基于深度神经网络的非参数化期权定价模型(DNN模型),并利用上证50ETF期权交易数据进行了实证分析。研究发现:DNN模型的样本外定价误差显著低于经典的Black-Scholes模型(BS模型),并且从均方根误差来看,DNN模型在上证50ETF看涨期权上的定价精度较BS模型提升了76.97%;从平均绝对百分比误差来看,DNN模型在看涨期权上的定价精度较BS模型提升了63.74%,尤其在长期限和深度实值期权上表现出较高的定价精度。这些结果表明,基于深度学习的期权定价模型较BS模型在中国内地期权市场上具有更高的定价精度,为投资者进行风险规避与衍生品定价提供了理论和实践依据。
李哲王超张卫国易志高
关键词:数据驱动期权定价BLACK-SCHOLES模型
基于前景理论框架和Heston模型的行为期权定价
2024年
行为期权定价是当前国际金融领域的热门研究主题之一。虽然随机波动率模型已成为国际衍生品定价领域的标准模型,但该模型对短到期期权(尤其是虚值期权)的定价仍不准确,其原因之一是传统的期权定价方法忽略了现实市场中的非理性心理和行为因素。针对上述问题,本文运用前景理论期权定价框架,引入价值函数来刻画投资者面对收益与损失的前景价值判断,引入决策权重函数来修正Heston随机波动率模型刻画的资产价格路径的概率密度函数,将期权合约签订与交割的现金流视为分散的心理账户情形,在市场均衡条件下推导出Heston模型下欧氏行为期权的定价公式。上证50ETF期权的实证结果表明:考虑了前景理论的Heston随机波动率模型,能显著地提升短到期虚值期权的定价准确度;参数校正结果发现,定价性能的提升要归因于Heston模型中纳入的表征非理性心理与情绪的行为参数;相对而言,投资者对实值期权的风险态度偏中性,因此行为参数对其定价精度的提升有限。
孙有发彭文彦
关键词:心理账户

相关作者

刘全
作品数:261被引量:1,346H指数:14
供职机构:苏州大学计算机科学与技术学院
研究主题:光栅 TABLEAU 离子束刻蚀 全息 行动者
刘海波
作品数:94被引量:427H指数:11
供职机构:哈尔滨工程大学计算机科学与技术学院
研究主题:分层强化学习 体系结构 多智能体系统 计算机专业 AUV
张晓艳
作品数:14被引量:13H指数:2
供职机构:合肥工业大学
研究主题:分层强化学习 OPTION 电力系统 多AGENT系统 模拟退火算法
顾国昌
作品数:146被引量:892H指数:16
供职机构:哈尔滨工程大学计算机科学与技术学院
研究主题:分层强化学习 智能机器人 多智能体系统 路径规划 多机器人
沈晶
作品数:73被引量:313H指数:10
供职机构:哈尔滨工程大学计算机科学与技术学院
研究主题:分层强化学习 计算机专业 AUV 人脸检测 OPTION