周扬帆 作品数:9 被引量:25 H指数:3 供职机构: 复旦大学计算机科学技术学院 更多>> 发文基金: 国家自然科学基金 上海市“科技创新行动计划”项目 上海市浦江人才计划项目 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
基于共享GPU的深度学习训练性能实证研究 被引量:3 2022年 深度学习应用的训练过程是计算密集型的,它通常依靠图形处理单元(Graphics Processing Unit, GPU)来加速训练过程。然而深度学习开发框架往往会独占GPU,造成计算资源的浪费。针对该问题,该实证研究对两个深度学习应用共享GPU训练的可行性进行讨论,系统地分析了有代表性的深度学习模型的静态和运行时特性,展示了共享GPU训练两个模型时,不同的模型组合和特征对整体性能的影响。根据实验结果所总结的原则可以作为提高调度效率和改善GPU云资源利用率的指导方针。 徐涣霖 顾嘉臻 康昱 周扬帆关键词:性能分析 实证研究 人工智能加速走进生活,高校如何培养人 被引量:1 2024年 近年来,人工智能迅速崛起,成为全球科技领域最热门的话题之一。特别是OpenAI公司开发的人工智能聊天机器人程序ChatGPT于2022年11月推出以来,以其为代表的大语言模型在各个领域不断展现出强大的应用潜力,它不仅能处理自然语言、生成文字内容,还能进行一系列复杂的任务,从写作与翻译到编程与数据分析,为工作和生活提供支持。大语言模型的出现,使得人工智能技术不再是远在实验室的产物,而是普及到了千家万户,成为人们日常生活的一部分。 周扬帆关键词:语言模型 数据分析 自然语言 OPEN CHAT 实验室 基于短语成分表示的中文关系抽取 被引量:1 2020年 关系抽取是自然语言处理的重要研究内容,短语成分结构则是学界普遍认为能对关系抽取有重要影响的特征信息。然而目前短语成分应用于关系抽取任务时没有明显效果。这主要有两个原因:短语成分分析模型的泛化能力较差,会在关系抽取上造成错误传播,从而影响了它对关系抽取的有效性;关系抽取任务上使用短语成分特征的方式存在缺陷,即丧失短语成分分析学习到的句子结构信息,或者加大其对关系抽取的错误影响。本文在提升短语成分分析效果的基础上,提出了基于短语成分表示的中文关系抽取方法。该方法将短语成分分析模型学习到的文本表示嵌入到关系抽取模型中,从而提升关系抽取的性能。本文在公开的中文关系抽取数据集上验证了该方法的有效性。 刘娜娜 程婧 闵可锐 康昱 王新 周扬帆一种低频词词向量优化方法及其在短文本分类中的应用 被引量:7 2020年 众多自然语言处理(Natural Language Processing,NLP)任务受益于在大规模语料上训练的词向量。由于预训练的词向量具有大语料上的通用语义特征,因此将这些词向量应用到特定的下游任务时,往往需要通过微调进行一定的更新和调整,使其更适用于目标任务。但是,目标语料集中的低频词由于缺少训练样本,导致在微调过程中无法获得稳定的梯度信息,使得词向量无法得到有效更新。而在短文本分类任务中,这些低频词对分类结果同样有着重要的指示性。因此,在具体的短文本分类任务上获得一个更好的低频词词向量表示是有必要的。针对这个问题,文中提出了一种与下游任务模型无关的低频词词向量更新算法,通过基于K近邻的词向量偏移计算方法,利用通用词向量中与低频词相似的高频词所获得的任务特征信息,来指导低频词的信息更新,从而获得更准确的且适用于当前任务语境的低频词词向量表示;并以TextCNN作为基准模型,基于word2vec和GloVe得到的两个通用预训练词向量,在3个公开的短文本数据集上进行了优化算法的效果验证。实验结果表明,使用优化算法更新低频词词表示后,模型分类准确率能达到84.3%~94%,较更新前提升了0.4%~1.4%,体现了优化算法的有效性,也进一步证明了短文本分类任务中低频词对分类结果的影响,为短文本分类的研究工作提供了一定的借鉴。 程婧 刘娜娜 闵可锐 康昱 王新 周扬帆一种基于用户反馈检测大型在线系统前台故障的方法 2022年 大型在线系统在不同终端中的客户端由于兼容问题和频繁迭代容易出现前台显示故障,如控件覆盖、乱码等。由于传统系统后台的指标监控方法无法应对症状繁杂的前台故障,提出利用用户反馈动态检测前台故障的方案,通过对用户反馈的实时分析,挖掘其中关键信息动态构建监控指标,来表征并覆盖各种类型的前台故障。进一步设计快速在海量指标中进行异常检测的两阶段算法,实时地检测出指标中的异常并反映故障。该方法在多个真实大型在线系统中均获得了良好的检测效果,准确率达70%,召回率超过90%。 卢皓川 郑吴杰 周扬帆 王新关键词:故障检测 用户反馈 分布式存储再生码数据修复的节点选择方案 被引量:5 2015年 随着海量存储数据的剧增,分布式存储系统逐渐得到广泛使用.分布式存储系统中存储节点数目的增加使得节点失效的机率增大.使用副本作为冗余的方式会带来很大的存储开销.为了减少存储开销,使用纠删码产生冗余是存储系统中一种主要的冗余策略.基于纠删码的数据修复过程中,需要在幸存节点中选择供应节点向新生节点传送数据,这就面临着修复节点的选择问题,需要设计一个节点选择机制来使得修复过程较快,提升存储系统的可靠性.结合实际数据修复过程中参与修复的节点对数据的计算速度不同,即存储节点存在计算能力异构的场景下,提出节点选择机制:星形拓扑修复算法S-SPAC和树形拓扑修复算法T-SPA-C,以加快失效节点的修复速度,从而减少整个修复过程中的修复时间.仿真结果表明,相对传统的随机节点选择策略,本文提出的选择机制可以有效减少数据修复时间. 齐凤林 宫庆媛 周扬帆 王新关键词:分布式存储系统 数据修复 适应冷热数据存储的多编码架构的设计与实证 被引量:5 2017年 随着互联网技术的发展,数据爆炸性增长,互联网的实际应用也已广泛依赖于海量数据的存储。实际的互联网应用往往需要存储多种类型数据,根据数据被访问频率差异可以将数据划分为冷热数据。然而,现有的编码存储机制往往只能采用固化的实现机制,无法适应多种数据类型的编码存储,导致存储系统性能(如数据访问时间)恶化。考虑到冷热存储数据的不同,提出一种基于多数据编码机制的存储系统框架。对于冷数据,该框架可以采用冗余度较低的编码,从而提高空间利用率;对于热数据,该框架可以采用解码速度较快的编码,从而提高数据访问速度。基于HDFS-RAID设计了这一框架并将之实现为真实系统,实际部署在一个Hadoop集群中。另外基于一个实际系统的用户数据轨迹,在搭建的集群中进行了试验,实验结果表明该框架可以满足不同类型数据同时高效存取的需求,并对编码机制具备高扩展性。 魏学才 宫庆媛 沈佳杰 周扬帆 王新关键词:分布式数据存储 HDFS 基于多系统协作的移动设备数据备份系统优化 随着智能设备以及社交网络的发展,移动设备(如智能手机、平板电脑等)已经成为了存储数据的一种重要方式。因此为了扩展移动设备的有限存储能力、以及保证数据的可靠性,基于远端存储介质的移动设备数据备份系统开始大量出现。通过分析当... 卢皓川 沈佳杰 周扬帆 王新关键词:移动数据存储 云际存储系统性能优化研究现状与展望 被引量:3 2021年 云际存储系统提供了一个云存储资源管理平台,该平台被广泛地部署到了不同的在线应用场景中。通过将用户数据加密分发到多个云,云际存储系统可以保证存储数据的安全性和可靠性。为了高效地管理云际存储系统的各种资源,云际存储系统设计了不同数据分发方案来满足应用需求。从存储性能优化的角度出发,综述了当前云际存储的主要应用场景、系统功能及对应的实现方案。首先,介绍了云际存储系统的背景及当前主要的数据分发方案。其次,比较了当前主流云际存储系统网络传输及资源管理方案。其中,包括分析云际存储系统数据读写和修复操作中主要网络传输方案及当前云际存储系统对于用户端设备及云端资源策略。最后,总结了当前云际存储的主要应用场景和相应系统实现方案。在此基础上,分析了当前云际存储系统中亟待解决的问题及其带来的挑战,并给出了可能的系统解决方案。 朱良杰 沈佳杰 周扬帆 王新关键词:分布式存储 纠删码