国家高技术研究发展计划(2002AA117010-10)
- 作品数:15 被引量:156H指数:8
- 相关作者:武港山袁春风戴文俊郭昭辉朱永盛更多>>
- 相关机构:南京大学更多>>
- 发文基金:国家高技术研究发展计划国家科技基础条件平台建设计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 数字资源共享平台框架的设计和实现被引量:16
- 2007年
- 从数字资源共享平台的需求入手,分析了目前建设数字资源共享平台面临的一些问题,提出了一种数字资源共享平台的框架设计,并基于CNRI Handle System和OAI-PMH给出了该框架的技术实现方案。最后介绍了一个实现实例——中国大学数字博物馆共享平台。
- 朱义华郭昭辉武港山
- 关键词:资源管理互操作共享平台
- 基于Web的信息检索技术综述被引量:35
- 2005年
- 随着信息技术的发展,特别是Web的不断普及和应用,Web上的信息飞速增长,形成了巨大的信息资源。因此,如何从巨量的信息中快速有效地提取出所需的信息,成为迫切需要解决的问题。文章分别介绍了几种传统的信息检索模型和基于潜在语义分析的信息检索模型,以及自动问答系统,并在多方面对它们进行比较,最后展望了问答系统的应用前景。
- 蒋凯武港山
- 关键词:信息检索潜在语义分析
- 论坛消息语义结构的提取与分析
- 随着Web 技术的发展,网上论坛在人们的生活中起到了越来越重要的作用,论坛中也逐渐积累内容丰富的文档资料。然而,论坛消息本身的特点使得传统的信息检索和文本分析技术无法收到良好的效果。本文在分析论坛站点内部信息组织模式和链...
- 李昕朱永盛武港山
- 关键词:语义单元信息抽取
- 文献传递
- 三维模型轴向体积分布特征提取及比较算法被引量:2
- 2005年
- 在分析网格数据结构的基础上,提出一种提取任意三维网格模型体积分布特征的算法.该算法首先应用主元分析法确定模型的主轴方向,再以一组等距的平行平面从三个坐标轴方向对模型进行剖分处理,通过计算截面面积求得模型沿三个主轴方向的体积分布特征.模型在三个坐标轴向上的体积分布描述了模型的几何特征,通过体积分布特征数据得到不同模型间的相似性度量.实验表明,该算法程序运行稳定、快速,可用于提取具有任意几何和拓扑复杂性的各类网格模型的体积分布特征.
- 戴文俊庞明勇武港山张福炎
- 关键词:特征抽取剖分
- 基于语义的词义消歧算法初探被引量:17
- 2006年
- 词义消歧是自然语言处理中的难题之一。结合《知网》,从语义的角度出发,结合词性信息、搭配实例和语义相关度等信息,提出了一种多策略的词义消歧方法。
- 龚永恩袁春风武港山
- 关键词:词义消歧《知网》语义相关度自然语言处理
- 基于中文宾州树库的浅层语义分析被引量:8
- 2008年
- 采用支持向量机的机器学习方法,以中文宾州树库为基础,对中文文本进行了部分语义角色标注实验。选取了主语、宾语、间接宾语、时间和地点这五种主要的语义角色,以中文PropBank 5.0中的前1 652个句子作为实验的训练集和测试集,选择路径、短语类型、谓词、头词、头词词性等八个属性作为分类特征,采用两阶段分类方法,在测试集上得到的总体语义角色标注的准确率和召回率分别为89.73%和91.26%。实验结果表明该方法对中文浅层语义分析工作是有效的。
- 连乐新胡仁龙杨翠丽袁春风
- 关键词:支持向量机语义角色标注
- 一种任意三维实体网格模型的体积特征提取算法被引量:4
- 2006年
- 体积在不同轴向上的分布是三维网格模型的重要几何特征。在分析三维模型数据结构的基础上,提出一种提取任意三维实体网格模型体积分布特征的算法。算法首先应用主元分析法确定模型的主轴方向,并将模型按主轴方向旋转至特定姿态,再以一组等距的平行平面从三个坐标轴方向对模型进行剖分处理,并利用平面简单多边形的带符号面积公式求取相应的截面面积,进而求得模型的沿不同轴向的体积分布特征。模型在三个坐标轴向上的体积分布描述了模型的几何特征。实验表明,算法程序运行稳定、快速,可用于提取具有任意几何和拓扑复杂性的各类实体模型的体积分布特征。
- 戴文俊庞明勇武港山张福炎
- 关键词:数字几何处理
- 论坛消息的语义漂移分析被引量:1
- 2006年
- 引入多维文档模型来组织论坛消息的描述性特征和语义性特征,并在多维索引的基础上,提出了加窗分析技术。目的在于分析论坛站点中语义漂移现象,进而发现论坛中的完整语义信息单元。
- 李昕朱永盛武港山
- 基于神经网络的中文文本分类中的特征选择技术被引量:12
- 2006年
- 基于神经网络的中文文本分类需要解决的核心问题是特征的选择问题,特征选择涉及选择哪些特征和选择的特征维度两个问题。针对上述问题,提出了信息增益(IG)与主成分分析(PCA)相结合的特征选择方法。通过实验比较分析了不同特征选择方法与特征维度对分类性能的影响,证明了该特征选择方法在基于神经网络的中文文本分类中的优越性,并得出神经网络的特征输入维度在200左右的时候分类性能最佳。
- 郭昭辉刘绍翰武港山
- 关键词:文本分类神经网络主成分分析
- 基于Web的新闻信息抽取被引量:22
- 2006年
- 随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息。最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果。
- 朱永盛武港山
- 关键词:信息抽取包装器DOM抽取规则