袁琴
- 作品数:7 被引量:4H指数:1
- 供职机构:广东工业大学更多>>
- 发文基金:国家自然科学基金广东省科技计划工业攻关项目NSFC-广东联合基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Storm的产品评论信息实时采集方法
- 本发明公开了基于Storm的产品评论信息实时采集方法,该方法在基于Storm平台的采集系统进行,该方法包括产品抓取模块周期性的从网络中抓取数据,预处理模块根据产品Id初始化产品的属性参数,调度模块将数据封装成Tuple发...
- 郝志峰骆魁永蔡瑞初陈炳丰袁琴
- 文献传递
- 一种网页评论内容的抽取方法
- 一种网页评论内容的抽取方法,包括以下步骤:获取网页源码;将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;通过深度加权子树相似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区...
- 郝志峰袁琴蔡瑞初陈炳丰骆魁永
- 一种基于Storm的在线产品评论信息采集的方法被引量:1
- 2017年
- 针对如何尽早地获取电商网站中产品的评论信息,进而实时地把握产品舆情,提出了一种基于Storm的在线产品评论信息采集方法.该方法将流计算的概念应用于网络爬虫中,并通过SHHD算法对采集周期进行动态调整.实验结果表明:基于Storm平台进行信息采集具有吞吐量大、可扩展性强等优点;SHHD算法可以有效地降低采集系统对网络带宽和系统资源的消耗,实现了适应性的增量的在线产品评论信息采集过程;SHHD在产品的评论信息获取的滞后时间上较Poisson、SART等方法具有明显的优势.
- 骆魁永郝志峰蔡瑞初温雯袁琴
- 关键词:STORM适应性
- 基于Storm的产品评论信息实时采集方法
- 本发明公开了基于Storm的产品评论信息实时采集方法,该方法在基于Storm平台的采集系统进行,该方法包括产品抓取模块周期性的从网络中抓取数据,预处理模块根据产品Id初始化产品的属性参数,调度模块将数据封装成Tuple发...
- 郝志峰骆魁永蔡瑞初陈炳丰袁琴
- 基于频繁子树挖掘的网页评论信息抽取
- 随着大数据时代的发展,同时受网购规模的迅速增加、商家对评论的鼓励措施等影响,网络产品评论信息急剧增长。海量产品评论信息是商家和消费者进行需求调研或购物决策时的巨大信息宝矿。因此从大量的结构迥异的带有评论信息的网页中快速准...
- 袁琴
- 关键词:信息抽取数据挖掘
- 基于加权频繁子树相似度的网页评论信息抽取被引量:3
- 2017年
- 针对现有网页信息抽取方法普遍存在人工耗时大、抽取准确率低等问题,提出了一种基于加权频繁子树相似度的网页评论信息抽取方法 WTS。首先通过视觉特征对网页进行剪枝处理;然后,通过深度加权的相似度度量方法抽取最佳频繁子树;最后,通过子树对齐方法抽取评论路径并解析评论内容。通过对京东、苏宁等网站的评论内容抽取实验,验证了WTS方法比D-EEM、POL等方法在抽取产品评论信息上具有一定的优势。
- 郝志峰袁琴蔡瑞初温雯骆魁永
- 关键词:抽取
- 一种网页评论内容的抽取方法
- 一种网页评论内容的抽取方法,包括以下步骤:获取网页源码;将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;通过深度加权子树相似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区...
- 郝志峰袁琴蔡瑞初陈炳丰骆魁永
- 文献传递