郭岩
- 作品数:82 被引量:399H指数:11
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学经济管理更多>>
- 一种网站列表页面的分类方法、系统及存储介质
- 本发明涉及一种网站列表页面的分类方法,方法包括:步骤100,获取一组网站页面集合,网站页面集合归属于同一网站;步骤200,分别针对每一网站页面提取网页数据特征;步骤300,通过网站页面的超链接列表以及网站网页的链接地址(...
- 孟剑樊晓然郭岩贺广福陈银鹏史存会俞晓明刘悦程学旗
- 网络日志规模分析和用户兴趣挖掘被引量:78
- 2005年
- 文章围绕网络日志中是否蕴含用户访问Web的规律性特性以及如何利用这些特性,研究了日志规模与用户数、Web文档数以及单位用户访问的Web文档数的关系;通过用户对Web访问动机的分析得出结论:一定时间段的Web访问日志中蕴含了用户的稳定兴趣;利用日志中蕴含的用户稳定兴趣,提出了一个基于用户行为的相关文档检索模型和搜索引擎系统SISI.SISI的实际检索性能与分析检索模型所得结论一致:检索准确率和检索时间主要依赖于用户数,检索返回的记录数主要依赖于文档数.
- 郭岩白硕杨志峰张凯
- 关键词:WEB日志挖掘用户行为
- 一种网页的正文抽取方法
- 本发明提供一种网页的正文抽取方法,包括下列步骤:1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作;2)从承载最长段落的节点集合中任选一个节点,从所选节点回溯至所述DOM树的根节点,计算各个节点的父节点及其子...
- 郭岩丁国栋张刚
- 文献传递
- 可扩展的网页关键信息抽取研究被引量:3
- 2015年
- 该文提出了一种可扩展的网页关键信息抽取框架。该框架很好地融合了模板无关的全自动信息抽取算法和基于模板的信息抽取算法,从本质上提高抽取精度和抽取效率。该框架中的一些关键环节可根据需求进行替换,因此该框架具有很好的可扩展性。同时,该文还提出了模板的正交过滤算法。将该算法引入基于模板的抽取算法中,能够从本质上提高生成的模板的准确性。实验结果验证了上述结论。
- 郭少华郭岩李海燕刘悦张瑾程学旗
- 关键词:信息抽取
- 互联网金融项目信息抽取方法和系统
- 本发明涉及一种互联网金融项目信息抽取方法和系统,包括:获取包含金融项目信息的训练网页,为训练网页划分目标项目区域,并为目标项目区域中的DOM树节点标注属性标签,根据训练网页的二维图像、HTML代码、DOM树,抽取DOM树...
- 杨放程学旗郭岩俞晓明刘悦
- 文献传递
- 用于大规模网络数据采集的分布式动态调度方法和系统
- 本发明涉及一种用于大规模网络数据采集的分布式动态调度方法,包括:获取网络数据所在的信源;将参与数据采集的节点注册为采集节点或调度节点;获取数据采集的调度策略;根据该调度策略和该信源的信源信息,生成采集任务;将该采集任务传...
- 孟剑俞晓明程学旗史存会郭岩贺广福周秀花余智华刘悦
- 文献传递
- 计算机辅助选案的设计及NLIDB的实现
- 税收是国家的命脉,税务稽查工作是整个税收征管工作的'重中之重'.稽查选案是税务稽查工作的首要环节,它依据科学的选案标准,利用已掌握的纳税人的各项涉税信息,用以发现对税收影响异常的纳税人.将计算机用于税务稽查,能从根本上解...
- 郭岩
- 关键词:税务稽查选案
- 文献传递
- 基于多平台的网络事件流行度预测方法与系统
- 本发明公开一种基于多平台的网络事件流行度预测方法,包括以下步骤:分别获取多个平台的网络事件的流行度预测序列,并融合多个流行度预测序列形成网络事件的流行度联合预测序列;分别获取多个平台的网络事件的流行度历史序列,并融合多个...
- 程学旗匡广生郭岩刘悦陈银鹏付宏宇俞晓明
- 我国网络舆情安全评估指标体系的构建研究被引量:72
- 2010年
- 近几年,国内通过网络爆发的重大舆情事件激增,使得网络舆情安全监管和预警形势极为严峻,引起了国家的高度重视。构建网络舆情安全评估指标体系能为网络舆情分析及预警技术与应用系统的实现和应用提供系统化、整体性的基础性平台。本文将"舆情"这一通过社会层面定性描述的概念与"网络"这一通过技术层面定量表征的概念有机地契合,深入挖掘互联网上所体现的舆情演变规律,从而构建了网络舆情信息在传播扩散、民众关注、内容敏感性、态度倾向性四个维度的安全评估指标体系,实现了对某一具体的网络舆情信息的安全态势评估。
- 戴媛郝晓伟郭岩余智华
- 关键词:网络舆情安全评估指标体系
- 基于图的多源数据融合框架研究被引量:6
- 2021年
- 在给定的任务中分析各种数据时,目前大多数研究只针对单源数据进行分析,缺乏应用于多源数据的方法。但如今数据日益丰富,因此提出一种多源数据融合框架,用于融合多种网络平台数据。同一平台数据中包含文本与各种属性,同时不同平台的数据在内容与形式方面也存在很大差异。然而现有的网络信息挖掘方法大多仅使用同一平台中的部分数据进行分析,忽略了不同平台的数据之间存在的相互作用。因此文中提出一种数据融合框架,一方面,能基于图的强大表示能力融合同一平台不同类型的特征,从而提升单个平台的任务性能;另一方面能够利用不同平台的数据特征,使其相互补充,从而提升多个平台的任务性能。文中讨论的融合数据类型包括文本、时间、作者信息,这些特征涉及连续特征、离散特征以及非结构化特征。所提框架在事件分类任务上提升了F 1值,验证了提出的多源数据框架的有效性。
- 匡广生郭岩俞晓明刘悦程学旗
- 关键词:多源数据