福建省教育厅科技项目(JA08161)
- 作品数:3 被引量:56H指数:2
- 相关作者:胡文瑜孙志挥吴英杰蔡文培张柏礼更多>>
- 相关机构:福建工程学院东南大学福州大学更多>>
- 发文基金:福建省教育厅科技项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 数据挖掘取样方法的衡量与选用研究被引量:3
- 2011年
- 取样是一种通用有效的近似技术。在数据挖掘研究中,取样方法可显著减小所处理数据集的规模,使得众多数据挖掘算法得以应用到大规模数据集以及数据流数据上。文章在研究了统计学上随机均匀取样方法误差统计和衡量方法的基础上,着重探讨和研究了适用于数据挖掘领域的取样方法衡量标准以及影响取样方法选择的因素等问题,提出了能更好地评估取样质量,尤其是偏倚取样方法取样质量的"取样方法代表性"和"取样偏差"等概念并进行了量化,最后对数据挖掘取样方法的衡量标准和选用研究的后续工作与研究方向进行了阐述。
- 胡文瑜蔡文培
- 关键词:数据挖掘
- Outlier-DivideConquer:近似聚集查询中离群分治取样算法被引量:1
- 2011年
- 取样是一种通用有效的近似技术,利用取样技术进行近似聚集查询处理是决策支持系统和数据挖掘实现技术中的常用方法.如何正确有效地给出近似查询结果并最小化近似查询误差是近似查询处理的关键和目标.在深入研究近似聚集查询取样方法的基础上,本文提出了一个有误差确界且只需单遍扫描数据集的离群分治取样Outlier-DivideConquer算法,该算法在聚集属性内部存在高方差分布时能克服随机均匀取样局限,可显著降低近似查询误差,且执行效率优于同类算法.最后通过与传统均匀取样算法的实验比较验证了Outlier-DivideConquer算法的有效性和正确性.
- 胡文瑜孙志挥张柏礼
- 关键词:数据挖掘决策支持
- 数据挖掘取样方法研究被引量:54
- 2011年
- 取样是一种通用有效的近似技术.在数据挖掘研究中,取样方法可显著减小所处理数据集的规模,使得众多数据挖掘算法得以应用到大规模数据集以及数据流数据上.通过对应用于数据挖掘领域的代表性取样方法的比较研究和分析总结,提出了一个取样算法分类框架.在指出了均匀取样局限性的基础上阐述了某些应用场景中选用偏倚取样方法的必要性,综述了取样技术在数据挖掘领域的应用研究与应用发展,最后对数据流挖掘取样方法面临的挑战和发展方向进行了展望.
- 胡文瑜孙志挥吴英杰
- 关键词:数据挖掘数据流概要数据结构