肖璐
- 作品数:20 被引量:208H指数:9
- 供职机构:南京大学信息管理学院更多>>
- 发文基金:国家自然科学基金国家社会科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:文化科学自动化与计算机技术经济管理政治法律更多>>
- 基于情感分析的评论挖掘模型研究被引量:13
- 2013年
- 在社会化网络环境下,关于产品的评论成为企业竞争情报分析重要的数据源。这些评论中包含用户对产品各个方面的情感倾向,对其进行情感分析可以帮助商家了解产品的优缺点。针对现有情感分析的不足,本文在构建评论挖掘模型时综合采用了共词分析和基于句法分析的极性传递法。共词分析可定量确定用户关心的产品维度;极性传递算法考虑句子结构特点,在对句子级文本做情感分析时相较传统情感分类算法有更好的分析效果。同时,引入极性值和强度值计算情感词和主题词的情感强度。
- 唐晓波肖璐
- 关键词:情感分析共词分析
- 基于词汇同现的多用户兴趣本体构建研究被引量:3
- 2012年
- 用户兴趣本体弥补了基于关键词的用户兴趣模型不能从语义上表达用户兴趣的缺陷,但大多是利用领域本体来构建,很难反映用户多方面和潜在兴趣,并且构建领域本体也是一个难点。本文据此提出一种基于词汇同现的用户兴趣本体构建方法。根据网页浏览记录找到用户兴趣网页集,经过数据处理将其转换成用户兴趣文本集。以TFIDF为指标抽取概念,词汇同现统计提取概念间关系,运用无尺度K-中心点聚类算法对其调整,将有关联用户的本体合并得到多用户本体,该本体能在语义上更全面反映用户兴趣并发现潜在兴趣。
- 唐晓波肖璐
- 关键词:用户兴趣本体构建词汇同现
- “互联网+”环境下情报工作的思考被引量:2
- 2016年
- "互联网+"环境下传统行业与互联网技术深度融合,给情报工作带来新的挑战。文章在对"互联网+"的概念内涵与特征进行分析的基础上,综合当前情报工作的特点,分析总结新环境下情报工作面临的挑战与机遇。
- 孙建军肖璐
- 关键词:情报工作
- 面向网络社区的知识聚合:发展、研究基础与展望被引量:10
- 2017年
- [目的/意义]梳理网络社区知识聚合的发展历程、研究对象和方法,可为后续研究的开展提供基础,并促进知识聚合理论与方法的深入和普适性发展。[方法/过程]以从信息聚合到知识聚合、从馆藏资源知识聚合到网络社区知识聚合两条主线探索网络社区知识聚合的发展历程;从多粒度知识单元、多元知识关联两个维度探索其研究对象;按语义利用程度归纳其基本方法;结合资源特点展望后续研究开展方向。[结果/结论]面向网络社区的知识聚合需要充分利用语义增强技术和领域概念关联,以克服其语义缺失的天然缺陷;同时,以"基于用户"和"面向用户"为主线,重视用户元素的作用;最后,应在综合考虑多元素、多关联的整体视角下开展网络社区知识聚合。
- 陈果朱茜凌肖璐
- 关键词:网络社区知识组织
- 基于依存句法分析的多主题文本摘要研究被引量:3
- 2014年
- 基于文本关系图摘要是当下多主题文本摘要中常用方法,针对该方法的不足,对其进行了改进。首先,由于基于词频统计的文本相似度计算方法对句子作用有限,引入依存句法分析,通过挖掘语义信息来扩展句子特征项,提高句子相似度计算准确性。其次,选择基于图结构的无尺度图K-中心点聚类算法对文本关系图进行聚类分析,提高主题挖掘的准确性。最后,综合考虑句子相似度和位置信息来计算句子权重,提高摘要句抽取的准确性。最后用实验证明该改进方法的有效性。
- 刘静肖璐
- 关键词:依存句法分析聚类算法
- 中英文图片标签质量差异比较研究--以Flickr为例被引量:3
- 2018年
- [目的/意义]探索Flickr中英文图片标签存在的质量差异,有利于更好地利用社会化标签进行信息的组织与检索。[方法/过程]文章以"广义知网知识本体架构线上浏览系统"词库中动物和植物两个大类的中英文词语为基础,在Flickr网站上分别采集中文与英文的图片信息,开发了标签质量测评网站,邀请志愿者对图片网站Flickr的中英文标签进行标签质量打分和标签类型选择,对图片标签类型分布及质量得分进行了统计分析。[结果/结论]调研结果显示中文标签质量略高于英文标签质量,但是中文标签质量分布比较分散,英文标签质量分布相对比较集中。
- 章成志赵华李蕾肖璐
- 面向网络社区的分面式导航体系构建——以丁香园心血管论坛为例被引量:15
- 2017年
- [目的/意义]文章提出并验证了一种适用于网络社区的分面导航体系构建方案。[方法/过程]方案核心包括:(1)利用Wiki信息框抽取领域概念及其细粒度关联;(2)综合利用已有知识库融合和用户缩写词识别等方式扩展同义词;(3)根据领域概念及其关联类型设定各级导航分面和动态导航词。[结果/结论]以心血管领域为例,文章实验了从39疾病百科中抽取疾病、器官、症状、诊断方法四类概念及其细粒度关联,并以丁香园心血管论坛为对象构建了分面导航体系,实现了相应的原型系统。该分面导航体系具有维度丰富、层次深入、导航词动态化生成、资源覆盖率高等特点。[局限]应用于特定领域时,各环节的技术方案还有待进一步深化。
- 陈果肖璐孙建军
- 关键词:用户生成内容网络社区
- 基于依存句法分析的微博主题挖掘模型研究被引量:14
- 2015年
- 近年来,微博成为人们获取与发布信息的重要方式,每天有大量微博数据产生,对其进行热点主题挖掘意义重大。数据挖掘中的聚类分析是挖掘热点主题的重要方法,但由于篇幅限制,传统聚类效果有限。本文据此提出用依存句法分析来改进传统文本相似矩阵,以提高聚类准确性。首先采用传统文本处理方法构建文本相似矩阵;再利用依存句法分析句子的结构,获取微博信息的依存树,找到有效依存词对,并据此计算文本相似度,构建另一个相似矩阵。综合两个矩阵得到更准确的微博文本相似矩阵,在此基础上运行聚类算法,挖掘出热点主题。最后根据评论数和转发数挖掘出重要主题与重要微博,完成微博主题的深入分析。
- 唐晓波肖璐
- 关键词:热点主题依存句法分析
- 向量空间模型文本建模的语义增量化改进研究被引量:6
- 2014年
- 【目的】基于语义增量对向量空间模型文本分类方法进行改进,并进行实验验证。【方法】梳理目前文本表示中语义向量引入和改进的相关研究,提出文本的语义向量表示实现框架。根据主题词和词汇分别与领域本体中概念之间的映射关系,构建概念层次树和定位词汇,计算概念语义相似度,结合语义增量实现文本的语义向量构建。【结果】通过文本分类的对比实验发现,本文所提方法可行且有效,在宏平均准确率、宏平均召回率和宏平均F_1方面优于其他方法。【局限】在向量空间模型基础上的改进,语义信息的表达不够充分,应继续探索文本建模的真正语义化实现方法;应对多种类型数据进行实验验证,以提高方法的适用性。【结论】探索原始向量空间模型的语义化问题,对当前文本分类及其语义关联等研究具有现实意义。
- 胡吉明肖璐
- 关键词:语义相似度
- 基于句子成分的微博热点主题挖掘模型研究被引量:3
- 2015年
- 由于传统聚类分析中文本相似度计算方法不适用于短文本,本文选用基于句子成分的相似度计算方法来计算微博文本之间的相似度。首先对文本进行句子划分,再通过句法分析获取微博的句子成分,选择构成句子成分的词语为特征词。利用知网计算两个微博文本之间相同成分词语的语义相似度,将语义相似度值按句子成分种类加权相加得到微博文本之间的相似度值。据此,构建文本相似矩阵,进行聚类分析,找到微博热点主题。最后,用实验证明本文方法的可行性。
- 肖璐唐晓波
- 关键词:句法分析知网热点主题句子成分