您的位置: 专家智库 > >

韩国辉

作品数:5 被引量:16H指数:3
供职机构:四川大学计算机学院更多>>
发文基金:四川省科技厅公益性研究计划项目国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 5篇自动化与计算...

主题

  • 2篇中文
  • 2篇分类器
  • 1篇短语
  • 1篇信息处理
  • 1篇信息熵
  • 1篇语义网
  • 1篇支持向量
  • 1篇支持向量机
  • 1篇制导
  • 1篇爬虫
  • 1篇中文信息
  • 1篇中文信息处理
  • 1篇主题爬虫
  • 1篇自动识别
  • 1篇文本
  • 1篇向量
  • 1篇向量机
  • 1篇领域本体
  • 1篇命名实体识别
  • 1篇结果聚类

机构

  • 5篇四川大学

作者

  • 5篇韩国辉
  • 4篇于中华
  • 4篇陈黎
  • 4篇王亚强
  • 3篇朱洪波
  • 2篇唐小棚
  • 2篇梁时木
  • 1篇陈超
  • 1篇李志蜀
  • 1篇琚生根
  • 1篇谭斌
  • 1篇卢文兴
  • 1篇罗宏

传媒

  • 2篇四川大学学报...
  • 1篇小型微型计算...
  • 1篇中文信息学报
  • 1篇计算机工程与...

年份

  • 3篇2011
  • 2篇2010
5 条 记 录,以下是 1-5
排序方式:
基于本体翻译的领域本体自动构建被引量:3
2011年
手工构建本体是一项既费时又费力的工作,为解决此项工作的瓶颈问题,本体自动构建成为当前的一个研究热点和重点。考虑到不同语言描述的本体在本质上是相同的,只是表层的表示符号不同,提出了一种基于本体翻译的领域本体自动构建算法,该算法针对已存在本体中概念标签的不同情况,分别采用不同的统计指标来筛选标签的目标语翻译。通过将一个英文金融本体翻译成中文对算法进行了实验验证,说明了算法的有效性。
卢文兴陈黎朱洪波王亚强韩国辉于中华
关键词:语义网本体信息熵
基于查询相关性分析的检索结果聚类算法
2011年
随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持.
罗宏陈黎王亚强朱洪波韩国辉于中华
关键词:检索结果聚类
Nave Bayes分类器制导的专业网页爬取算法被引量:3
2010年
从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。
韩国辉陈黎梁时木唐小棚王亚强于中华
关键词:中文信息处理BAYESIANCLASSIFIER
中文财经文本中公司名简称的自动识别被引量:3
2011年
命名实体识别是当前自然语言处理的热点问题之一,对信息检索、信息抽取等具有重要意义.然而,目前多数研究都集中在对命名实体全称的识别上.本文以财经为领域背景,对从文本中识别简称,并将其映射成全称问题进行了研究,提出了一个启发式算法用于解决该问题.所提出的算法首先提取文本中每个N元组(N-gram)作为候选的公司名简称,然后建立n元组与全称表中每个全称的最优对齐关系,最后对每对"N元组-全称"对齐关系进行评价和筛选,识别出文本中的简称及每个简称对应的全称.在随机获取的网页文本集上对所提出的算法进行了实验测试,算法的精确率、召回率和F-度量值分别为83.62%、87.28%、85.41%.
陈超朱洪波王亚强韩国辉谭斌于中华
关键词:命名实体识别
基于SVM预测的金融主题爬虫被引量:7
2010年
随着Internet上信息的爆炸,利用通用搜索引擎检索用户相关的信息变得越来越困难,而主题爬虫成为WEB上检索主题相关信息的重要工具.目前大部分基于分类器预测的主题爬虫的训练数据是不同类别网页的内容,但是在实际预测过程只能根据父网页中的一些链接信息进行预测,所以造成主题爬虫的预测的准确率较低.本文使用SVM分类器对标注了类别的URL以及上下文和锚文本进行训练,并分别使用了DF和信息增益两种不同的特征选择方法进行特征筛选,对影响分类器的各种因素进行了实验对比,并对分类器进行了在线的实验.实验证明这种方法在实际预测过程中效率很高.
陈黎李志蜀琚生根唐小棚梁时木韩国辉
关键词:主题爬虫分类器支持向量机金融
共1页<1>
聚类工具0