国家自然科学基金(70871115)
- 作品数:13 被引量:77H指数:5
- 相关作者:杨小平詹志建宇文姝丽何伟孙亚琳更多>>
- 相关机构:中国人民大学河北大学怀化学院更多>>
- 发文基金:国家自然科学基金河北省社会科学发展研究课题中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术医药卫生矿业工程更多>>
- 煤矿组织错误及其危害性研究被引量:1
- 2011年
- 近年来,我国煤矿生产重特大事故频繁发生,久治不愈,除了给国家和企业造成了重大经济损失外,也产生了极为不利的社会影响。过去人们往往将关注的重点放在一些能够直接导致煤矿事故发生的因素上,如恶劣的井下生产环境、落后的煤炭开采技术、素质较低的煤矿工人等,认为是这些因素造成了煤矿生产过程中存在着大量物的不安全状态和人的不安全行为,当两者交叉时引发煤矿事故。
- 曹庆仁
- 关键词:煤矿生产重特大事故不安全行为不安全状态久治不愈经济损失
- 面向关系型数据的本体学习模型——RCAOM被引量:1
- 2011年
- 为获取结构化的关系数据库中蕴含的知识本体,利用形式概念分析与本体间的双向互动关系,提出了基于关系形式概念分析的本体学习方法——RCAOM(relational context analysis ontology model)方法。RCAOM方法分别从关系数据的元数据层和元组实例两个层面发现概念及关系,通过关系数据库逆向工程和用户参与的概念格建立与概念测量,形成关系型的形式背景,最终转化为面向关系数据的本体模型。研究表明:RCAOM方法不仅可以较好地自动发现关系模式元数据概念及关系,而且能够有效发现隐含于数据记录中的概念及关系,构建面向主题的本体模型;具备分析复杂度低和收集盲点少的特点,是面向关系型数据库的本体学习和构建大型本体库的新探索。
- 杨小平李皓侯丽娜
- 关键词:本体形式概念分析关系型数据
- 基于百度百科的词语相似度计算被引量:22
- 2013年
- 词语相似度计算是自然语言处理的关键技术之一,是一个被广泛研究的基础课题。传统的词语相似度量方法大多是基于语义知识和基于语料库统计的方法,即这两类方法需要具有层次关系组织的语义词典和大规模的语料库。提出了一种新的基于百度百科的词语相似度量方法,通过分析百度百科词条信息,从表征词条的解释内容方面综合分析词条相似度,并定义了词条间的相似度计算公式,通过计算部分之间的相似度得到整体的相似度。实验结果表明,与已有的相似度计算方法对比,提出的算法更加有效合理。
- 詹志建梁丽娜杨小平
- 关键词:词语相似度语言网络百度百科向量空间模型
- 从百度百科挖掘领域知识相关度被引量:1
- 2011年
- 本文提出利用百度百科这个开放的中文知识百科全书来计算知识领域间关联度的方法。通过抽取百度百科中词条的解释和分类信息,并经过分词以后,我们可以用向量空间模型(VSM)量化分类中的词条,然后提出用领域内词条的关联矩阵迭代的方法来计算单个领域中各个词条的权重。要计算2个领域的相关度,首先要分别算出它们各自领域中每个词条的权重,而后通过扩展向量空间的方式把它们的概念空间扩展为一个公共的向量空间,并在此公共向量空间中用余弦夹角的方法计算2个领域的相关度。该研究成果可以辅助我们发现领域间的关联,加快不同领域间知识的融合。
- 胡婕茹杨小平黄都培
- 关键词:领域知识相关度WEB挖掘百度百科
- 基于主题词表和FCA的网页语义概念树构建研究被引量:2
- 2014年
- 针对用户使用网站效率低和网站质量差的问题,提出了利用形式概念分析(FCA)来构建网页语义概念树的方法。该方法首先利用信息抽取、自然语言处理等技术对网页集进行文本抽取、分词,提取出描述文本语义的特征词;再以主题词表为参照,设计基于搜索引擎的词语相似度算法,将抽取的特征词全部转换成主题词表中主题词,对将抽取的语义信息转换成形式背景,利用规则、聚类等技术对形式背景进行约简。最后通过设计的建格算法构建概念格,实现概念树构建。实验结果表明,利用该方法构建的概念树可以作为网站本体模型的基础,对语义评估具有积极的意义,具有一定的应用价值和借鉴意义。
- 孙亚琳赵林林杨小平
- 关键词:本体形式概念分析词语相似度
- 基于词间语义关联性的本体扩展被引量:5
- 2011年
- 本体作为一种概念模型建模工具,被应用到计算机的各个领域,用来信息组织和知识管理。本体扩展是一种将新概念以及概念间的关系添加到已有本体的合适位置,以扩大本体为目的的方法。提出一种基于词间语义关联性从文本中扩展本体的方法,该方法主要利用共现分析、词过滤技术和词间语义关联性从文本中发现潜在的概念,作为待扩展概念,并使用扩展规则、包含分析等关系识别技术将概念添加到已有本体中。以电子政务领域的教育子领域为例,使用该方法扩展了一个教育领域的领域本体,结果表明该方法扩展的本体比较合理,具备较强的应用能力。
- 何伟杨小平
- 关键词:本体共现分析
- 一种基于复杂网络的短文本语义相似度计算被引量:14
- 2016年
- 将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。
- 詹志建杨小平
- 关键词:复杂网络语义相似度
- 支持临床路径的电子病历系统开发设计被引量:14
- 2011年
- 结合临床路径实施过程,重新整合支持临床路径的电子病历系统流程,研究基于HL7 CDA的电子病历数据结构化和标准化原则以及混合关系数据库和XML的存储模式,提出一种支持临床路径的电子病历系统解决方案,并通过原型系统进行实践。
- 李慧玲杨小平宇文姝丽
- 关键词:电子病历存储模式
- 面向未登录领域词切分的中文分词技术研究被引量:1
- 2013年
- 本文通过研究现有中文分词技术的理论和工具,提出一种面向未登录领域词识别的中文自动分词算法。首先,利用已有的中文自然语言处理技术对中文文本进行自动分词,并用一种改良的串频统计方法自动识别出语料中的未登录领域词汇,从而有效提高了中文分词的准确性。
- 蔡荣彦
- 关键词:中文分词串频统计未登录词
- TFC-Reducing:一种基于属性语义距离和规则的文本型形式背景约简方法被引量:3
- 2012年
- 形式概念分析作为数据分析和知识处理的形式化工具,可以有效的从海量文本数据中挖掘出人们感兴趣的知识,受到许多研究人员的推崇.形式概念分析的前提条件是必须有一个纯净、良好定义的形式背景.从文本中直接提取特征词,利用文本-特征词形成的文本型形式背景(Textual Formal Context TFC)是一个高度稀疏的二维表,带有很多的噪音信息,严重影响形式概念分析的建格效率以及概念格的结构.因此找到一种有效的文本型形式背景约简方法很有必要.本文综合考虑文本型形式背景的本质特征,从属性语义距离和数学原理出发,提出了一种文本型形式背景的约简方法TFC-Reducing,并给出文本型形式背景约简的评价方法--信息损失熵和语义覆盖度.
- 杨小平何伟孙亚琳廖俊宇
- 关键词:语义距离属性约简