蒋权
- 作品数:4 被引量:12H指数:2
- 供职机构:长春工业大学计算机科学与工程学院更多>>
- 发文基金:吉林省自然科学基金吉林省教育厅“十二五”科学技术研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于随机森林的自适应特征选择算法被引量:8
- 2018年
- 为了解决传统的随机森林算法在随机特征选择时,导致少数比较重要的特征变量被过滤掉的问题,以及没有考虑特征变量相关性对预测应变量准确性带来的影响,提出了一种基于随机森林的自适应特征选择算法SARFFS。该算法首先利用卡方检验样本间关联程度后自助采样,并设计出一种特征对类代表强弱程度的计算方法;然后引入自适应稀疏约束机制Group LASSO优化特征的选择;最后在Spark分布式计算平台利用UCI数据集进行实验,结果表明,相比传统的RF算法,SARFFS算法在特征子集选择上具有更好的性能,在F1上提升将近9%。从最终排名靠前的重要特征分析,该算法能够考虑特征间相关性,对预测结果确实有影响,并有效地提高了随机属性权值的可靠性和稳定性。
- 刘凯郑山红蒋权赵天傲
- 关键词:自适应
- DOLDA模型设计与主题演化分析被引量:3
- 2018年
- 为解决OLDA模型挖掘大规模文档主题时计算效率低下和不能发现新主题的问题,提出一种分布式的DOLDA模型(distribute online LDA,DOLDA)。建立分布式矩阵存储主题-词项,设计一种动态负载均衡策略来提升计算速度和线程调度的性能,根据Zipf定律结合主题的遗传度提出一种文档权值设置方法。在Spark分布式计算平台的实验结果表明,相比OLDA模型,DOLDA模型能够提高近16%的加速比,有效地在线分析主题的演化。
- 蒋权郑山红刘凯李万龙
- 关键词:主题挖掘分布式计算动态负载均衡
- 一种分布式LDA主题模型方法
- 2017年
- 基于Spark分布式计算框架,采用Gibbs抽样方法研究分布式LDA主题模型挖掘方法。在Spark平台进行大规模数据集处理实验。
- 蒋权董亚则刘凯庞海龙
- 关键词:SPARK分布式计算主题建模
- MB-HL模型的微博主题挖掘研究被引量:1
- 2018年
- 为了解决传统的文本主题模型对微博主题挖掘准确率低及不考虑主题之间关联的问题,针对中文微博语料本身的特点,分析LDA(latent Dirichlet allocation)和HMM(hidden Markov model)的优缺点,提出了微博主题挖掘模型MB-HL(microblog-HMM&LDA)。该模型用逐条微博作为处理单元,建立分布主题—词语矩阵并进行优化,通过LDA模型对微博用户不同的行为建模并提取特征,利用HMM模型强大的时序状态建模能力弥补LDA在主题相关性上的不足,采用Gibbs采样进行推理求解。在真实的新浪微博数据上对比实验表明MB-HL模型能提高近9%主题关键词的准确度,并能有效地发现主题之间的关联关系。
- 蒋权郑山红刘凯李万龙
- 关键词:主题挖掘隐马尔可夫模型GIBBS采样