张玉红
所属机构: 合肥工业大学 所在地区: 安徽省 合肥市 研究方向: 自动化与计算机技术 发文基金: 国家自然科学基金
相关作者
胡学钢 作品数:504 被引量:1,989 H指数:21 供职机构:合肥工业大学 研究主题:数据挖掘 概念格 关联规则 粗糙集 属性约简 李培培 作品数:77 被引量:132 H指数:7 供职机构:合肥工业大学 研究主题:标签 数据流分类 数据流 文本 概念漂移 张晶 作品数:28 被引量:114 H指数:7 供职机构:合肥工业大学计算机与信息学院 研究主题:数据挖掘 领域知识 教学改革 数据结构 聚类 杨帅 作品数:11 被引量:4 H指数:1 供职机构:合肥工业大学 研究主题:降噪 自适应 数据集合 文本分类 编码器 刘晓平 作品数:644 被引量:1,285 H指数:16 供职机构:合肥工业大学 研究主题:计算机应用 CAD 概念设计 可视化 虚拟现实
基于word2vec的跨领域情感分类方法 被引量:14 2018年 情感分类是用于判断数据的情感极性,广泛用于商品评论、微博话题等数据。标记信息的昂贵使得传统的情感分类方法难以对不同领域的数据进行有效的分类。为此,跨领域情感分类问题引起广泛关注。已有的跨领域情感分类方法大多以共现为基础提取词汇特征和句法特征,而忽略了词语间的语义关系。基于此,提出了基于word2vec的跨领域情感分类方法 WEEF(cross-domain classification based on word embedding extension feature),选取高质量的领域共现特征作为桥梁,并以这些特征作为种子,基于词向量的相似度计算,将领域专有特征扩充到这些种子中,形成特征簇,从而减小领域间的差异。在SRAA和Amazon产品评论数据集上的实验结果表明了方法的有效性,尤其在数据量较大时。 王勤勤 张玉红 李培培 胡学钢关键词:语义特征 基于Logistic回归分析的直推式迁移学习 被引量:4 2010年 传统的机器学习方法基于一个基本的假设:训练数据和测试数据遵循相同的分布。然而,在许多现实的应用中,这种假设并不能够被保证。在这种情况下,传统的机器学习方法因没有意识到分布的改变而可能失败。近年来,迁移学习技术被专门用来解决这一缺陷。文章提出了一种叫做TTLR的方法,将原始领域中的训练数据有效地迁移到目标领域中,该方法首先对Logistic回归分析模型进行扩展,然后利用不同领域概率分布之间的差异性,调节训练数据中每个实例的权重,从而使得训练得到的分类器更加适应于目标领域;在所选取的数据集上得到的实验结果表明,与传统的监督式学习方法相比,所提出的方法有很大的优势。 胡学钢 方玉成 张玉红关键词:LOGISTIC回归分析 基于C4.5和NB混合模型的数据流分类算法 被引量:9 2010年 具有概念漂移的含噪数据流的分类问题成为数据流挖掘领域研究的热点之一。提出了一种基于C4.5和Nave Bayes混合模型的数据流分类算法CDSMM。它以C4.5作为基分类器,采用朴素贝叶斯分类器过滤噪音,同时引入假设检验中的μ检验方法检测概念漂移,动态更新模型。实验结果表明,CDSMM算法在处理带有噪音的概念漂移数据流时具有比同类算法更好的分类正确率。 李燕 张玉红 胡学钢关键词:数据流 概念漂移 一种基于自适应噪音降噪编码器的跨领域文本分类方法 本发明公开了一种基于自适应噪音降噪编码器的跨领域文本分类方法,其特征是:采用适用于跨领域任务的特征选择方法,过滤在源领域数据集合和目标领域数据集合中的样本中出现频率较低和无意义的特征词,并跟据源领域集合和目标领域集合中的... 张玉红 杨帅 李玉玲 李培培一种基于主动贝叶斯分类技术的垃圾邮件过滤方法 被引量:1 2008年 目前,将机器学习、文本分类与信息过滤技术相结合的过滤方法成为研究热点。对实际邮件过滤时往往会遇到训练样本中包含大量未带类别标注的邮件,应用传统分类方法存在耗时且过滤性能差等问题,文章提出采用主动贝叶斯分类方法RANB对训练样本进行预处理,以标识其多类别;实验表明,这种方法可有效地提高训练样本质量,提高过滤器性能,在各项评价指标上具备优越性。 李笛 张玉红 胡学钢关键词:垃圾邮件 文本分类 信息过滤 贝叶斯分类 一种基于类与特征分布的多标签数据流中概念漂移检测方法 本发明公开了一种基于类与特征分布的多标签数据流中概念漂移检测方法,包括:1、根据滑动窗口机制将多标签数据流划分成数据块;2、统计数据块的类标签数据分布,并根据余弦相似度函数与海明损失函数计算类标签分布差异度,用于判断数据... 李培培 李磊 张玉红 胡学钢 刘俊峰 何路 吴共庆 吴信东文献传递 基于VPRS的近似概念格模型及其构造 不确定知识的提取是机器学习和数据挖掘领域一个重要的研究课题。概念格是一种精确的、有效的知识发现模型,难以处理用户感兴趣的不确定知识。VPRS 模型是处理不确定知识的一种有效工具。本文将 VPRS 引入概念格,提出一种近似... 张玉红 胡学钢 刘晓平关键词:概念格 不确定信息 文献传递 基于概念格扩展模型的分类问题研究 数据挖掘与数据库知识发现(Knowledge Discovery in Databases,KDD)是当前涉及人工智能、数据库、统计学等学科的一门相当活跃的研究领域,是从数据中提取人们感兴趣的、潜在的、可用的知识,并表示... 张玉红关键词:KDD 数据挖掘 概念格 剪枝 分布式 文献传递 用于域适应的多边缘降噪自动编码器 被引量:2 2019年 神经网络模型被广泛用于跨领域分类学习。边缘堆叠降噪自动编码器(marginalized stacked denoising autoencoders,mSDA)作为一种神经网络模型,通过对源领域和目标领域数据进行边缘化加噪损坏,学习一个公共的、健壮的特征表示空间,从而解决领域适应问题。然而,mSDA对所有的特征都采取相同的边缘化加噪处理方式,没有考虑到不同特征对分类结果的影响不同。为此,对特征进行区分性的噪音系数干扰,提出多边缘降噪自动编码器(multi-marginalized denoising autoencoders,M-MDA)。首先,利用改进的权重似然率(weighted log-likelihood ratio update,WLLRU)区分出领域间的共享和特有特征;然后,通过计算特征在两个领域的距离,对共享特征和特有特征进行不同方式的边缘化降噪处理,并基于单层边缘降噪自动编码器(marginalized denoising autoencoders,MDA)学习获取更健壮的特征;最后,对新的特征空间进行二次损坏以强化共享特征的比例。实验结果表明,该方法在跨领域情感分类方面优于基线算法。 杨帅 胡学钢 张玉红关键词:情感分类 基于区间类信息熵的连续属性离散化方法 连续属性离散化问题是数据挖掘重要的研究步骤之一。本文基于粗糙集的有关理论,提出了一种新的连续属性离散化方法。首先提出度量属性区间离散化效果的区间类信息熵的概念,然后根据已有数据的取值构成候选断点区间集,在控制区间类信息熵... 阙夏 胡学钢 张玉红关键词:离散化 粗糙集理论 决策表 文献传递