教育部人文社会科学研究基金(13YJA870020)
- 作品数:12 被引量:64H指数:7
- 相关作者:章成志李蕾顾晓雪王冕张颖怡更多>>
- 相关机构:南京理工大学南京大学安徽财经大学更多>>
- 发文基金:教育部人文社会科学研究基金国家社会科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 社会化标签质量自动评估研究被引量:8
- 2015年
- 【目的】对用户标注的大量标签实现自动评估,自动选择或推荐高质量的标签,提高社会化标签应用效果。【方法】现有的标签质量评估研究割裂了标签的内容属性与社会化属性,没有结合标签多方面属性进行综合评估。因此本文以博文标签作为研究对象,融合社会化标签内容属性与社会化属性,利用统计机器模型对社会化标签质量进行自动评估研究。【结果】结果显示,结合标签的内容属性特征和社会化属性特征,支持向量机标签质量评估模型评估结果明显优于多元回归和朴素贝叶斯评估结果。【局限】仅使用科学网博文的标签数据,其社会化功能还不够完善,一些社会化属性并不能有效地提高社会化标签质量自动分类效果。【结论】该工作为进一步提升社会化标签的组织与应用质量打下基础。
- 章成志李蕾
- 关键词:社会化标签
- 科研用户博文关键词标注行为差异研究——以科学网博客为例被引量:7
- 2015年
- 【目的】为优化标注系统提供依据,同时丰富网络环境下用户标注行为的研究。【应用背景】不同人群的关键词标注行为差异研究是用户信息行为研究中的一个重要方面。【方法】从标注系统使用方式、关键词结构以及标注动机三个角度选取关键词标注比率、用户标注关键词比率、用户标注关键词平均个数、用户标注关键词平均长度以及用户标注关键词重用率5个标注行为指标,分析科学网博客中不同类型用户标注行为的差异。【结果】分析结果发现,不同职业、专业、注册时间、发博文频率以及职称的用户在部分标注行为上存在显著性差异,但不同性别以及学历的用户在主要标注行为上不存在显著性差异。【结论】学术博客可以根据不同类型用户的标注行为差异,对博文标注系统进行优化。
- 张颖怡章成志池雪花李蕾
- 关键词:社会化标签科研用户
- 区分标签质量的机器生成标签聚类研究被引量:2
- 2015年
- 【目的】常规的标签或词语聚类没有考虑聚类对象的质量差异对聚类效果的影响,本文旨在分析不同质量的机器生成标签的聚类效果差异,并提出融合标签质量的标签聚类算法优化建议。【方法】首先,抓取Engadet中英文博客数据,对其进行数据预处理得到候选标签,抽取标签社会化特征与内容特征并进行权重计算,采用两种标签质量区分策略,得到不同质量的标签集合;然后,对不同质量的标签集合进行相似度计算,使用AP算法进行聚类,分析比较它们的聚类结果。【结果】实验结果表明,对于中英文标签,Top5标签聚类结果要优于Top5-10标签聚类结果,加权社会化属性标签聚类结果优于不加权社会标签聚类结果。【局限】区分标签质量的方法比较单一,缺乏评价标签质量的有效方法。【结论】高质量的机器生成标签聚类结果比低质量的标签聚类结果更好,对标签的社会化属性的加权能够提高机器生成标签的聚类效果,且社会化属性可以作为区分标签质量的特征之一。
- 章成志顾晓雪
- 标注内容与用户属性结合的标签聚类研究被引量:4
- 2015年
- 【目的】研究标签聚类中标注内容与用户属性及其结合对聚类效果的影响。【方法】采用科学网博客数据,对其进行特征抽取、模型构建和相似度计算,利用线性函数和Sigmod函数进行相似度加权,并使用AP聚类算法进行标签聚类。【结果】在学科分类体系下,用户属性与标注内容的结合均对标签聚类的结果有所提升,Sigmod加权表现最优;在系统分类体系下,两者结合均不如标注内容结果表现优秀。【局限】选择的数据量较小,评估标签聚类的分类体系不够完善,AP聚类算法不适用于大数据的处理。【结论】两种特征的结合在部分情况下能够提高聚类效果,标签聚类中应更加关注标签的内容特征。
- 顾晓雪章成志
- Hashtag研究综述被引量:7
- 2015年
- 【目的】分析当前Hashtag研究思路和技术,归纳和总结当前Hashtag研究中所存在的问题,并提炼Hashtag研究的理论意义与实际意义,为更深入的Hashtag研究提供参考。【文献范围】以2007年至2015年的国际会议和国内外期刊的60篇文献作为主要研究对象。【方法】调研Hashtag研究及其应用的相关文献,对Hashtag研究中各环节涉及的方法进行分析和总结。【结果】Hashtag在用户使用、Hashtag挖掘与基于Hashtag的应用研究三方面存在一些可以深入研究的问题。【结论】未来应侧重于Hashtag的理论研究,如用户标注Hashtag的动机、影响Hashtag标注的因素等。在实际应用中,结合不同学科方法和多个领域的技术改善Hashtag在实际应用中的效果。
- 邵健章成志李蕾
- 关键词:文本挖掘社会化标签情感分类
- 结合内容和标签的Web文本聚类研究被引量:8
- 2014年
- 【目的】探索社会标签与文本内容的结合对文本聚类的影响。【方法】采用Engadget中英文博客数据,使用TF×IDF、Text Rank、Text Rank×IDF三种特征抽取方法,线性函数和Sigmod函数进行相似度加权,AP算法进行聚类。【结果】结果表明,TF×IDF的聚类效果最好,两种加权对英文博文聚类有不同程度的改善,但在中文博文聚类中,Sigmod加权结果稍有下降,线性加权比Sigmoid加权方法效果更好。【局限】没有找出标签相似度与内容相似度最佳的权重系数。AP聚类算法不能应用于大数据,聚簇过多影响聚类结果的展示。【结论】社会标签与文本内容相似度的线性加权能改善Web文本聚类结果。
- 顾晓雪章成志
- 关键词:社会标签文本聚类
- 社会化媒体中的社区发现研究综述被引量:2
- 2013年
- 社会化媒体通常表现用户的人际关系网,从而促成用户社区的快速形成。首先对社会化媒体中社区的定义与特点进行总结,然后重点阐述5大社会化媒体中社区发现的主要研究内容与进展,最后总结出现有研究集中在社区发现算法、社区性质分析及社区进化三个方面,并指出目前存在的主要问题与未来可能的研究方向。
- 吴小兰章成志
- 关键词:社会化媒体
- 社会化标注系统中用户标注动机差异分析被引量:8
- 2014年
- 随着社会化标注系统应用的普及,社会化标签为用户的信息检索和信息组织提供了便利的平台,而现有的对社会化标签的研究关注应用层面的较多,较少探讨用户标注内在机制问题,而通过对用户标注动机的探究,可以指导社会化标注系统更好的满足用户的需要。因此本文采用自行研制的用户标注动机量表,通过调查社会化标注系统中有过标注行为用户的标注动机,从不同性别、不同年龄、不同学历、不同职业、不同社会化标注系统使用时间以及使用次数、不同标注资料类型7个方面分析比较不同背景用户标注动机的差异,最后为增强用户的标注动机提出相应的建议。
- 李蕾章成志
- 关键词:社会化媒体
- 社会化标签质量评估研究综述被引量:10
- 2013年
- 旨在对有关社会化标签质量相关研究进行总结,首先阐述社会化标签质量评估问题的产生背景,然后对现有社会化标签质量评估方法进行总结与比较分析,指出社会化标签质量评估中存在的问题,对社会化标签质量评估研究和未来发展方向提出展望。
- 李蕾章成志
- 关键词:社会化标签用户生成内容WEB2
- 区分标签类型的社会化标签质量测评研究被引量:17
- 2013年
- 认为社会化标签多采取自由标引方式,部分标签并不能有效地揭示资源的内容或主题,于是产生许多低质量的标签,这些低质量标签干扰社会标注系统中资源组织的秩序,降低标签在应用场合中的质量和用户满意度。进行基于标签类型的社会化标签质量测评研究,开发标签质量测评网站,邀请志愿者在该网站上对博文标签、图书标签、图片标签、视频标签、音乐标签类型进行划分,得到标签类型分类用的训练数据集和测试集;同时,对标签质量进行打分,在此基础上进一步得到标签质量评估的训练数据集与测试数据集,为以后基于标签类型的标签质量评估提供数据支持。
- 李蕾王冕章成志
- 关键词:社会化标签质量测评