国家教育部博士点基金(20100181120029) 作品数:10 被引量:66 H指数:4 相关作者: 于中华 王亚强 秦湘清 陈黎 唐常杰 更多>> 相关机构: 四川大学 北京大学 中国出生缺陷监测中心 更多>> 发文基金: 国家教育部博士点基金 国家自然科学基金 国家科技支撑计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于干预规则挖掘因果关系与分段干预事件及对比不等式 被引量:1 2011年 为揭示亚复杂系统(SCS)在干预下的特殊行为,提出了对比不等式概念,提出并实现了分段干预规则的挖掘算法;通过在亚复杂系统中施加扰动式干预并分析其动力学效应,提出并实现了基于扰动因果关系挖掘算法。在真实数据上的实验表明,分段干预规则发现了传统挖掘方法难以发现的新干预事件,因果挖掘算法发现了传统方法难以发现的因果关系。 唐常杰 段磊 郑皎凌 杨宁 王悦 朱军关键词:因果关系 基于K近邻的新话题热度预测算法 被引量:30 2012年 随着互联网的快速发展,网络舆情成为政府部门和企业以及社会大众关注的焦点,对网络舆情进行有效监管和正确引导是当前亟待解决的问题,话题热度预测是舆情监管和引导的基础。针对现有算法无法对新话题的热度进行有效预测的缺点,提出了一种基于K近邻的新话题热度预测算法。该算法利用与新话题相似的历史话题的点击数时间序列来对新话题的热度进行预测。实验结果表明,在允许相对误差分别低于10%、20%和30%的情况下,算法预测的前3天点击数的平均正确率分别为47.26%、61%和67.7%,点击数变化趋势平均正确率达到73.73%,这也说明了相似的话题在话题出现的初期具有近似的热度变化趋势。 聂恩伦 陈黎 王亚强 秦湘清 金宇 于中华关键词:K-近邻算法 网络舆情 基于K近邻的腧穴配方自动生成算法 被引量:1 2013年 针灸是中医的重要组成部分,运用新兴技术挖掘大量隐藏在针灸诊疗记录中的规律,既可推动针灸更好地为国民健康服务,又能促进中医现代理论体系的完善。腧穴(即穴位)的选择是针灸治病的关键,而运用现代技术选择腧穴的研究还处于起步阶段。以数据挖掘技术为手段,提出了一种基于K近邻方法的腧穴处方自动生成算法。该算法通过分析病历库中与目标现病史最相似K条病历的穴位配方,来自动给出患者针灸治疗的推荐方案。为更好地计算病历的相似性,根据针灸临床数据的特点分别采用了规范症状、一元字串(unigram)和二元字串(bigram)三种特征。在包含6 267条针灸临床病历的数据集上对算法的有效性进行了验证,实验结果表明使用一元字串和二元字串的特征更适合腧穴处方的自动生成,在删除或保留患者复诊数据这两种情况下F度量值分别可达到40.30%和62.71%。 李云松 王亚强 陈黎 秦湘清 于中华 黄文静关键词:K近邻 特征提取 干预规则挖掘的概念、任务与研究进展 被引量:1 2011年 干预规则挖掘是近年从干预实践中提出的新型数据挖掘任务,旨在利用数据挖掘技术探测干预事件,发现最佳干预时机和力度,提供促进事物向期待状态转化的决策支持.文中以四年的研究实践为背景,介绍干预规则挖掘的研究沿革和现状,给出了干预规则挖掘的任务分类.从三个角度,即干预效果预测、干预方法发现和未知干预探测三方面,介绍干预规则挖掘的研究问题、困难和成果.展望了干预规则挖掘未来研究方向. 段磊 唐常杰 杨宁 左劼 王悦 郑皎凌 徐开阔关键词:数据挖掘 流数据 不确定数据 时间序列 面向电子商务网站的产品属性提取算法 被引量:3 2013年 从商品评论中抽取作为评价对象的产品属性及判断评价的极性(正面评价、负面评价、中性评价),对于充分挖掘利用电子商务网站上积累的大量商品评论,为消费者的购物决策和生产者的生产决策提供支持,具有重要意义.本文针对现有算法的不足,结合中文电子商务网站中商品评论的特点,提出了综合模板、频率和HITS的无监督学习算法,用于从中文商品评论中识别产品属性.充分的实验结果表明,所提出的无监督算法对产品属性识别的F值可以达到77.3%,优于文献中提出的其他类似算法. 李俊 陈黎 王亚强 秦湘清 于中华关键词:抽取 HITS 一种面向专业搜索引擎的查询推荐算法 被引量:4 2013年 根据专业搜索引擎的特点,提出了一种新颖的基于词语共现与HITS算法的查询推荐算法QR-CH(Query Recom-mendation algorithm based on word Co-occurrence and HITS algorithm)。该算法一方面利用HITS算法对基于词语共现筛选出的关联词按语义关联性进行排序,选取排序靠前的关联词作为推荐词,提高了推荐词与原查询词的相关性;另一方面使用HITS算法排序关联文档,从查询结果文档集的角度来判断推荐是否冗余,降低了推荐词的冗余性。该算法将推荐相关的信息存储到知识树中,利用知识树实现查询推荐。实验结果表明QR-CH算法在推荐词的相关性和冗余词的判断方面均优于文献中已有的类似算法。 王桂华 秦湘清 陈黎 王亚强 于中华关键词:查询推荐 专业搜索引擎 基于对比学习的动态网页用户评论获取方法 随着Web 2.0相关技术的发展,传统爬虫无法适于动态网页中用户评论的获取.主要工作包括:1)分析了动态网页用户评论的挑战;2)设计了一种新的用户评论获取方法ReviewCrawler,ReviewCrawler根据网页... 冉熙璐 段磊 吕广奕 陈珂 李钟麒 黄东兰 唐常杰关键词:WEB挖掘 动态网页 文献传递 基于显露模式的出生缺陷判别算法 被引量:1 2011年 出生缺陷是目前世界各国关注的公共卫生问题,采用数据挖掘技术提高出生缺陷的诊断水平是当前数字医学的热点研究方向。为此,提出了适合出生缺陷特征提取的两种显露模式:有缺陷相比于无缺陷的显露模式和无缺陷相比于有缺陷的显露模式。将新模式与决策树C4.5算法结合,实现了基于显露模式的出生缺陷判别(BDD-EP)算法。实验结果表明BDD-EP算法判别准确率高达90.1%,判别正常类的F度量值为93.9%,判别缺陷类的F度量值为74.1%,均高于其他几种著名的分类算法的判别效果。 吴保华 段磊 于中华 唐常杰 朱军关键词:决策树 特征提取 基于登录词邻接关系的双条件概率的领域术语抽取算法 被引量:2 2011年 领域词典作为中文信息处理的基础,在各个领域都有着重要的应用.而人工构建领域词典不仅工作量大,而且缺乏时效性.因此,自动构建领域词典成为目前研究的重点,而构建领域词典的关键是从领域语料中自动抽取领域术语.本文以金融领域作为切入点,提出了根据登录词前后邻接关系计算邻接词之间的双条件概率自动识别领域术语.实验证明,本文提出的算法不仅能够有效地提取新术语,同时在小语料和低词频情况下也能取得较好的效果. 陈黎 于中华 王亚强 秦湘清关键词:术语抽取 领域词典 基于显露模式的对比挖掘研究及应用进展 被引量:8 2012年 对比挖掘是近年来数据挖掘领域的新热点之一。对比挖掘关注并描述不同类别和条件下,或随时间变化的知识,旨在设计能够发现刻画数据集中不同类别或条件的样本间差异的模式或模型的方法。由于对比挖掘技术能化繁为简、准确分类,在实践中得到广泛应用。显露模式的挖掘和应用是对比挖掘的重要分支。综述了显露模式的背景、基本概念和原理,分析了显露模式的挖掘方法,讨论了显露模式的扩展定义和挖掘,介绍了基于显露模式的分类器构造方法,展示了显露模式的若干实际应用,展望了基于显露模式的对比挖掘的未来研究。 段磊 唐常杰 Guozhu Dong 杨宁 苟驰关键词:数据挖掘 频繁项集