郑艳红
- 作品数:2 被引量:7H指数:2
- 供职机构:厦门大学信息科学与技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于同义词词林的文本特征选择方法被引量:5
- 2012年
- 特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度.
- 郑艳红张东站
- 关键词:同义词词林遗传算法文本分类
- 基于查询集空间分布的聚合最近邻查询算法被引量:2
- 2011年
- 聚合最近邻查询涉及到多个查询对象,因此比传统最近邻查询更复杂,而且其查询集空间分布特征暗含了查询集聚合最近邻的区域分布信息。充分考虑查询集分布特征,给出了利用分布特征指导聚合最近邻搜索的方法,并以此提出了一种新的聚合最近邻查询算法——AM算法。AM算法能动态地捕捉并利用查询集空间分布特征,使得对数据点的搜索按正确的次序进行,避免对不必要数据点的搜索。最后通过实验验证了AM算法的高效性。
- 徐超张东站郑艳红饶丽丽