于中华 作品数:78 被引量:366 H指数:11 供职机构: 四川大学计算机学院 更多>> 发文基金: 国家自然科学基金 国家教育部博士点基金 四川省科技支撑计划 更多>> 相关领域: 自动化与计算机技术 医药卫生 核科学技术 自然科学总论 更多>>
有效时间自然联结在HBase中的实现算法 时态自然联结是时态数据库中非常重要的运算之一,本文讨论了基于有效时间的自然联结分类算法,以及其在HBase中的实现方案。 张天庆 魏志毅 周韬 唐常杰 于中华文献传递 综合证素分析和“方名-药名”相似度的方剂主药发现算法 被引量:4 2011年 组方规律的研究对于挖掘中医诊治的基本原理,实现中医现代化具有重要意义.本文针对现有算法在发现方剂主药方面存在的不足,提出了将证素与"方名-药名"相似性分析相结合的主药发现算法JPEA(Joint Primary medicine Extraction Algorithm),该算法通过对名医医案临床数据中证素与药物之间的关联分析,并结合方名与药名相似度的计算,来发现方剂中起主要作用的药物.对于证素-药物关联分析,分别设计了基于点互信息的算法、基于贝叶斯的算法和基于MF-ISF(Medicine Frequency-Inverse Syndrome factor Frequency)的算法.实验结果表明,基于点互信息的方法可以达到76.5%的准确率,明显优于文献中已有算法达到的35.8%.同时,实验结果还表明,方名与药名的相似性对于判断方剂的主药具有重要作用. 秦湘清 熊军 王亚强 于中华 张学虹 邹圣容 蒋永光关键词:贝叶斯方法 基于登录词邻接关系的双条件概率的领域术语抽取算法 被引量:2 2011年 领域词典作为中文信息处理的基础,在各个领域都有着重要的应用.而人工构建领域词典不仅工作量大,而且缺乏时效性.因此,自动构建领域词典成为目前研究的重点,而构建领域词典的关键是从领域语料中自动抽取领域术语.本文以金融领域作为切入点,提出了根据登录词前后邻接关系计算邻接词之间的双条件概率自动识别领域术语.实验证明,本文提出的算法不仅能够有效地提取新术语,同时在小语料和低词频情况下也能取得较好的效果. 陈黎 于中华 王亚强 秦湘清关键词:术语抽取 领域词典 Nave Bayes分类器制导的专业网页爬取算法 被引量:3 2010年 从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。 韩国辉 陈黎 梁时木 唐小棚 王亚强 于中华关键词:中文信息处理 BAYESIAN CLASSIFIER 基于时态数据库的Web数据周期规律的采掘 被引量:31 2000年 拟周期性能描述对象在生命周期中重复性的趋势和走向 ,并能忽略时间轴上不规则的伸缩和幅度上的干扰 .该文以基于 Hbase分史制的 Web数据拟周期采掘任务为背景 ,提出了属性趋势、趋势惯量和峰谷链、抗干扰的惯性趋势算法和峰谷算法 ,对拟周期采掘给出一种解决方法 ,通过在一组地震数据上的采掘测试表明 。 唐常杰 于中华 游志胜 张天庆 杨璐关键词:拟周期 时态数据库 数据采掘 基于贝叶斯方法的中医“症-证”分析 被引量:11 2008年 中医"症-证"分析在中医诊断学和中医证候分析中非常重要。该文以数据挖掘技术为手段对选取的古方进行"症-证"研究,对古方的主治症状进行规范,挖掘"症-证"之间的关系,从而判定方剂的主治证、兼治证。为了挖掘中医"症-证"之间的关系,提出了基于KNN的挖掘算法和基于贝叶斯的挖掘算法。对比实验证明,基于贝叶斯方法正确率达到65.76%,高于KNN的62.50%。 李仕进 陈蓉 田玲 陈云惠 张昱 蒋永光 于中华关键词:数据挖掘 贝叶斯方法 KNN算法 传统中医药 信息高速公路的引桥——信译Internet机译系统 1997年 本文介绍了信译Internet机译系统的界面,使用方法。 唐常杰 何贤江 于中华 张天庆 沙芦华 李志蜀关键词:机器翻译 HBASE INTERNET网 基于前后文词形特征的生物医学文献句子边界识别 被引量:1 2006年 针对生物医学文献的特点及信息抽取的特殊要求,提出了基于前后文词形特征和有教师学习的句子边界识别算法.与针对一般英语书面语设计的句子边界识别算法不同,本文提出的算法不使用特殊的辅助词表和语法层面的特征信息,只使用前后文单词的词形信息作为句子边界识别和消歧的依据.利用这些特征设计了最大信息熵识别器和支持向量机识别器,并在Medline摘要上进行了实验,达到了超过99%的正确率.实验结果表明,最大信息熵法和支持向量机法在句子边界消歧问题上具有相近的性能,同时还表明,对生物医学文献句子边界识别,只使用词法层面的特征,不使用辅助词表和词性等语法层面的信息,仍可达到其它算法在一般英语书面语上利用辅助词表和词性信息所达到的性能. 于中华 张容 唐常杰 左劼 张天庆关键词:自然语言处理 句子边界识别 一种面向专业搜索引擎的查询推荐算法 被引量:4 2013年 根据专业搜索引擎的特点,提出了一种新颖的基于词语共现与HITS算法的查询推荐算法QR-CH(Query Recom-mendation algorithm based on word Co-occurrence and HITS algorithm)。该算法一方面利用HITS算法对基于词语共现筛选出的关联词按语义关联性进行排序,选取排序靠前的关联词作为推荐词,提高了推荐词与原查询词的相关性;另一方面使用HITS算法排序关联文档,从查询结果文档集的角度来判断推荐是否冗余,降低了推荐词的冗余性。该算法将推荐相关的信息存储到知识树中,利用知识树实现查询推荐。实验结果表明QR-CH算法在推荐词的相关性和冗余词的判断方面均优于文献中已有的类似算法。 王桂华 秦湘清 陈黎 王亚强 于中华关键词:查询推荐 专业搜索引擎 混合遗传算法在制造元设计中的应用研究 制造元设计是将机器和零部件组成制造单元的一个过程,已被证明是一个NP问题。本文提出了一种将改进模拟退火算法引入遗传算法的混合遗传算法。通过用改进后的模拟退火方法替换传统的变异算子和把当代最优解进行退火,大大提高了算法的局... 梁时木 于中华 唐小棚 李娜娜关键词:模拟退火 混合遗传算法 整数规划 成组技术 文献传递