中央高校基本科研业务费专项资金(FRF-TP-10-006B)
- 作品数:11 被引量:82H指数:3
- 相关作者:武森冯小东叶俞飞单志广卢丹更多>>
- 相关机构:北京科技大学国家信息中心更多>>
- 发文基金:中央高校基本科研业务费专项资金国家自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术理学自然科学总论更多>>
- 基于大规模复杂网络社区发现的科研合著网络分析被引量:4
- 2014年
- 针对基于极大团的社区发现算法,设计了适应大规模数据的MapReduce并行计算框架,提出了基于大规模复杂网络社区发现的科研合著网络分析算法,并用于对我国管理科学与工程领域2012年科研合著网络进行社区结构划分。实验结果表明,基于MapReduce的并行社区发现算法可在保证正确性的同时有效提高计算效率,适用于大规模复杂网络的社区发现。针对我国管理科学与工程领域2012年科研合著网络的社区划分结果展现了我国管理科学与工程领域科研合作的特点和问题。
- 武森卢丹冯小东杜彦南
- 基于加权阈值容差关系的不完备信息系统粗糙集模型被引量:2
- 2012年
- 针对已有的不完备信息系统粗糙集扩充模型没有考虑属性的权重的缺点,提出基于加权阈值容差关系的粗糙集扩充模型.该模型根据给出的不完备信息系统信息量计算权重,不需引入系统外知识,权重确定比较客观;同时引入阈值来调整加权阈值容差类判定的严格程度,兼顾了人的主观要求,并能预先排除因自身不满足阈值条件而不可能与任何其他对象划为同一加权阈值容差类的对象,但不影响类的完整性.实例对比分析表明,与其他模型相比,基于加权阈值容差关系的粗糙集扩充模型符合不完备信息系统应用客观实际,具有更强的适应能力.
- 武森蒲立程锴高学东
- 关键词:粗糙集理论信息系统容差分析加权
- 考虑数据排序的改进CABOSFV聚类被引量:2
- 2011年
- CABOSFV是基于稀疏特征进行高维数据聚类的高效算法,但算法的聚类质量受数据输入顺序的影响。针对此问题,提出考虑数据排序的改进CABOSFV聚类(CABOSFV_CS),通过定义稀疏性指数来描述数据的稀疏特征,并按照稀疏性指数升序对数据进行排序以改进CABOSFV算法的聚类质量。采用UCI基准数据集进行实验,结果表明与传统的CABOSFV算法相比,CABOSFV_CS有效地提高了聚类准确率。
- 武森王静谭一松
- 关键词:高维数据聚类
- 分类属性数据的泛化中心聚类算法
- 2014年
- 针对采用经典划分思想的聚类算法以一个点来代表类的局限,提出一种基于泛化中心的分类属性数据聚类算法。该算法通过定义包含多个点的泛化中心来代表类,能够体现出类的数据分布特征,并进一步提出泛化中心距离及类间距离度量的新方法,给出泛化中心的确定方法及基于泛化中心进行对象到类分配的聚类策略,一般只需一次划分迭代就能得到最终聚类结果。将泛化中心算法应用到四个基准数据集,并与著名的划分聚类算法K-modes及其两种改进算法进行比较,结果表明泛化中心算法聚类正确率更高,迭代次数更少,是有效可行的。
- 武森张桂琼潘静全敏
- 关键词:聚类算法
- 考虑加权排序的分类数据聚类算法被引量:2
- 2013年
- 针对部分聚类算法对数据输入顺序敏感的问题,定义了不干涉序列指数,提出了应用不干涉序列指数对分类数据进行加权排序的方法,并基于该方法对受数据输入顺序影响的CABOSFV C分类数据高效聚类算法进行改进,提出了考虑加权排序的聚类算法(CABOSFV CSW),消除了算法对数据输入顺序的敏感性.采用UCI基准数据集进行实验,发现应用加权升序排序的CABOSFV CSW算法在处理分类数据时,聚类质量较原始CABOSFV C算法和其他受数据输入顺序影响的算法在准确性上有改善,在稳定性上有显著提高.
- 武森王蔷姜敏魏青
- 关键词:数据挖掘聚类算法排序分类数据
- 基于作者引用文献关系的潜在研究兴趣主题发现被引量:5
- 2014年
- 扩展LDA(latent dirichlet allocation)模型,提出基于作者引用文献关系的作者-兴趣主题-文献模型。每个作者被分配一个在所有主题上的多项概率分布,每个主题被分配一个在所有文献上的多项概率分布。在DBLP(digital bibliography&library project)文献引用关系数据集上的实验表明,所提模型能有效地提取一个研究领域的主要潜在研究兴趣主题及其所包含的代表性文献,并能挖掘每个作者属于每个研究兴趣主题的分布。
- 冯小东武森王佳晔
- 关键词:数据挖掘主题发现LATENTDIRICHLETALLOCATION
- 拓展集合差异度高维数据聚类
- 2011年
- 提出度量多个集合之间总体差异程度的拓展集合差异度及相关定理,并给出一种新的解决分类属性高维数据聚类问题的CAESD算法。基于拓展集合差异度及拓展集合特征向量,在CABOSFV_C聚类的基础上通过两阶段聚类完成全部聚类过程。采用UCI数据集与K-modes及其改进算法、CABOSFV_C算法进行比较实验,结果表明CAESD算法具有较高的聚类正确率。
- 武森叶俞飞俞晓莉
- 关键词:高维数据聚类
- 基于不完备数据聚类的缺失数据填补方法被引量:63
- 2012年
- 缺失数据的处理是数据挖掘领域进行数据预处理的一个重要问题.传统的缺失数据填补方法大部分是基于概率分布等一些统计假设,对于大数据集的数据挖掘不一定是最适合的方法.受不完备数据分析(ROUSTIDA)未采用传统的概率统计学方法启发,提出基于不完备数据聚类的缺失数据填补方法(MIBOI),针对分类变量不完备数据集定义约束容差集合差异度,直接计算不完备数据对象集合内所有对象的总体相异程度,以不完备数据聚类的结果为基础进行缺失数据的填补.采用UCI机器学习基准数据集进行实验表明,MIBOI对缺失数据的填补是有效可行的.
- 武森冯小东单志广
- 关键词:不完备数据聚类
- 基于关联规则的SNS网站个性化推荐研究被引量:3
- 2011年
- 以关联规则为理论基础,针对社会性网络服务(Social Networking Services,SNS)网站的个性化推荐问题进行研究.在系统总结个性化推荐方法基础上,详细给出基于关联规则的个性化推荐过程,综合运用可信度和作用度两个指标更好地对生成的关联规则进行评价.并采用SNS网站实际运营数据有效实现个性化推荐,对个性化推荐技术在SNS网站的实际应用价值进行拓展分析.
- 武森徐丽李志才
- 关键词:社会性网络服务个性化推荐关联规则
- 基于稀疏指数排序的高维数据并行聚类算法被引量:1
- 2011年
- 高维数据聚类是数据挖掘领域的重要研究课题,大规模高维数据聚类研究非常具有挑战性.针对高效的CABOSFV高维数据聚类算法,采用并行计算模式提高其大规模数据的处理能力,提出基于稀疏指数排序的高维数据并行聚类算法P-CABOSFV.该算法根据高维数据稀疏指数排序进行分割点选择实现数据划分,将数据分配到多个计算节点同时处理聚类任务,再基于集合稀疏特征差异度聚类结果合并策略将各计算节点的聚类结果合并得到最终聚类结果.UCI数据集和计算机合成数据集实验表明:高维数据并行聚类算法P-CABOSFV聚类质量良好,具有很强的数据规模和数据维度可扩展性,是有效可行的.
- 武森冯小东吴庆海
- 关键词:数据划分高维数据聚类并行计算