国家自然科学基金(61370091) 作品数:15 被引量:73 H指数:6 相关作者: 冯钧 唐志贤 陈志飞 张立霞 刘艺 更多>> 相关机构: 河海大学 中国电子科技集团第二十八研究所 解放军理工大学 更多>> 发文基金: 国家自然科学基金 国家科技支撑计划 江苏省普通高校研究生科研创新计划项目 更多>> 相关领域: 自动化与计算机技术 水利工程 天文地球 机械工程 更多>>
一种改进的协同过滤推荐算法 被引量:6 2017年 推荐系统在电子商务中应用广泛,协同过滤是推荐系统中应用最为成功的推荐技术之一。随着电子商务系统数据不断增加,用户-项目评分矩阵稀疏性问题日趋明显,成为推荐系统的瓶颈。本文提出基于LDA的协同过滤改进算法,提升稀疏评分矩阵下的推荐质量。首先,根据用户与项目评分矩阵,建立LDA模型,得到用户-项目概率矩阵,作为协同过滤的原始数据;然后根据属性对项目聚类,对用户-项目概率矩阵进行裁剪;最后,考虑上下文信息,在传统协同过滤相似度计算基础上,通过引入时间因子函数改进相似度计算公式。在Movie Lens数据集上的实验结果表明,本文提出模型的MAE指标优于传统协同过滤算法。 刘艺 冯钧 魏童童 陈志飞 徐欢 张立霞关键词:LDA 协同过滤 聚类 相似度计算 突发涉水事件的舆情分析研究 被引量:4 2017年 互联网信息公开、迅速、透明且易于收集,对于突发性水利事件的分析,互联网舆情大数据分析是一个发展趋势,这种方式能以较小代价快速获取数据,分析得到有价值的信息,正成为辅助常规水利事件监测处理的有力方式。在研究和应用现状分析的基础上,通过对搜索引擎、社交论坛和新闻报道等渠道采集相关数据并分析挖掘,提出面向突发事件的热度和情感分析模型,并对2017年嘉陵江铊污染突发事件,从9个情感维度进行分析。微博用户的陈述、愤怒、担心的比重较大,论坛评论的用户大部分都表示出较理性的心态,新闻评论的网友多处于担心和追责状态,负面情绪偏多。突发涉水事件的舆情传播很快,因为事件应急处理措施快速生效,水污染情况得到有效控制,事件舆情逐渐趋于稳定。 成建国 张鸿星 唐彦 王汪送 张进 李晓东 冯钧关键词:舆情 情感分析 一种基于TIN的多尺度流域河网提取算法 2017年 多尺度水文模拟是水文研究的重要领域,多尺度的流域河网是多尺度水文模拟的基础,而现有基于TIN提取算法存在河道定义单一、未处理平坦区域及不支持多尺度等不足。提出一种基于TIN的多尺度流域河网提取算法,定义谷线河道、重心—重心河道和重心—谷线河道等流域河网特征;利用回溯的方法确定平坦区域三角形的流向,进一步确定平坦区域的河道;定义基于TIN数据的汇水面积的概念,用以实现空间多尺度流域河网的提取。设计河网的二叉树拓扑结构和编码方案及算法,用于构建流域河网的空间拓扑结构为水文研究提供接口。研究及实验结果表明,提出的算法提取出的流域河网与地形数据中的实际河网吻合。 唐志贤关键词:不规则三角网 多尺度 基于网络爬虫的水利信息检索系统的设计与实现 被引量:3 2017年 随着水利信息化进程的快速发展,与水利信息相关的互联网资源不断增多,面对如此巨量和复杂形式的水利信息数据,依靠人工检索、分析的方式已难以满足行业应用的需求。随着大数据信息技术的逐步深入研究,设计与实现可应用于水利信息获取的网络爬虫,成为解决水利信息检索与分析问题的基础。设计应用主题网络爬虫技术的水利信息检索系统,通过水利主题信息爬取,数据格式转化与整理,规范化写入数据库等步骤,实现网络水利数据到格式化数据库数据的自动转化。该系统的实现为多数据源信息的交叉验证与网络应急数据的获取,提供新的思路与可行方案。 巫义锐 黄多辉 周逸徉关键词:水利信息化 信息检索 网络爬虫 主题爬虫 样本自适应多特征加权的高分辨率遥感图像分类 2014年 高分辨率遥感影像能够提供丰富的地物细节,但各种地物空间分布复杂,同类目标呈现出较大的光谱异质性,给传统模式识别分类器带来极大的挑战。提出了一种样本自适应多特征加权的遥感图像分类方法。常见的多特征组合分类器未能充分利用各种特征之间的局部相关性,提出通过分析测试样本局部特征相关性,探究各个特征在不同样本的分类中所占权重的不同,据此对不同分类器进行自适应加权。在一个大型遥感图像数据库上的实验结果表明,不同特征在遥感图像中对不同样本的分类作用是不同的,样本自适应特征加权法将平均分类精度从78.3%提高到90%。 常纯 李士进 万定生 冯钧关键词:遥感图像分类 自适应加权 多分类器 水利元数据动态分面搜索引擎的设计与实现 被引量:1 2017年 针对大量水利元数据共享需要构建搜索引擎的问题,普通用户对水利元数据领域知识的认知存在缺陷,需要引入一种探索式的访问技术准确地表达出检索请求,以实现元数据检索功能。分面搜索是一种探索式的检索方式,根据物体的多维属性,对搜索结果进行聚类,所以用户可以选择分面值对搜索结果筛选过滤。随着水利元数据的增加及水利元数据异构化程度的提高,分面的数量也不断增加。如果把所有的分面都显示给用户,容易给用户选择分面带来困难。为了将探索式的检索方式运用于水利元数据搜索领域,针对水利元数据分面过多的问题,提出了一种基于保持率的分面推荐算法,设计和实现了水利元数据的动态分面搜索引擎。实验结果表明,所提出的算法能够有效地提高用户的检索效率。 孔盛球 冯钧 杜丙帅一种基于DTW的新型股市时间序列相似性度量方法 被引量:8 2015年 现有时间序列相似性度量方法在进行股市序列相似性分析时,通常忽略成交量等其他重要因素对股价的影响,从而导致序列聚类、分类不精确。针对这一问题,本文提出了新的股市时间序列相似性度量方法。该方法在动态时间弯曲算法的基础上,通过引进时间衰竭因子,并结合成交量因素,给出了股市序列的最终度量公式。为了证明提出方法的可行性和有效性,本文实验部分通过选取家电等三个行业中的股票数据进行测试。实验结果表明,基于动态时间弯曲(Dynamic time warping,DTW)的新型股市时间序列相似性度量方法能够在保持股票序列形态特征的基础上,较好地解决股市技术分析中量价关系问题,从而更有效地应用于股市技术分析里关于模式发现等领域。 冯钧 陈焕霖 唐志贤 吴德关键词:时间序列 动态时间弯曲 一种环境因素敏感的WebServiceQoS监控方法 被引量:8 2016年 面向服务系统的执行能力依赖第三方提供的服务,在复杂多变的网络环境中,这种依赖会带来服务质量(QoS)的不确定性.而QoS是衡量第三方服务质量的重要标准,因此,有效监控QoS是对Web服务实现质量控制的必要过程.现有监控方法都未考虑环境因素的影响,比如服务器位置、用户使用服务的位置和使用时间段负载等,而这些影响在实际监控中是存在的,忽略环境因素会导致监控结果与实际结果有悖.针对这一问题,提出了一种基于加权朴素贝叶斯算法w BSRM(weightednaive Bayes running monitoring)的Web Service QoS监控方法.受机器学习分类方法的启发,通过TF-IDF(term frequency-inverse document frequency)算法计算环境因素的影响,通过对部分样本进行学习,构建加权朴素贝叶斯分类器.将监控结果分类,满足QoS标准为c_0,不满足QoS标准为c_1,监控时调用分类器得到c_0和c_1的后验概率之比,对比值进行分析,可得监控结果满足QoS属性标准、不满足QoS属性标准和不能判断这3种情况.在网络开源数据以及随机数据集上的实验结果表明:利用TF-IDF算法能够准确地估算环境因子权值,通过加权朴素贝叶斯分类器,能够更好地监控QoS,效率显著优于现有方法. 庄媛 张鹏程 李雯睿 冯钧 朱跃龙关键词:服务质量 基于日志的数控机床生产信息自动化获取方法 被引量:8 2019年 生产信息的自动化采集能提高管理数据的质量,是发展智能制造和提高车间管理水平的内在要求。针对现有的生产数据自动化采集方法存在采集数据较为单一、实施复杂、与系统耦合度高等多种不足,提出一种基于日志的数控生产信息自动化采集方法。通过编程注释的方法丰富了日志信息源,并在此基础上构建了日志信息的自动采集与生产数据解析系统。应用实例表明,该方案能满足数控机床生产管理中的各项报表数据要求,数据准确全面。 徐斌 冯钧 潘瑞林 郜振华关键词:信息采集 数控机床 报表 一种基于映射机制的水利信息资源检索方法 被引量:1 2017年 在水利信息资源元数据统一检索过程中,针对水利信息资源元数据模式的多样性导致的语义不一致和用户资源视图展示需求不一致的问题,文中提出一种双重映射机制,通过语义关系映射解决不同类型元数据语义不一致的问题,通过视图关系映射解决用户资源视图按需配置问题。文中设计与实现的两种关系映射模型灵活高效、可扩展性强,有效地解决了上述两种问题。 刘艺 冯钧 唐志贤 陈志飞 徐欢 张立霞关键词:元数据 关系映射