朱泽德
- 作品数:4 被引量:32H指数:3
- 供职机构:中国科学院合肥智能机械研究所更多>>
- 发文基金:国家自然科学基金模式识别国家重点实验室开放课题基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 一种基于LDA模型的关键词抽取方法被引量:15
- 2015年
- 为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。
- 朱泽德李淼张健曾伟辉曾新华
- 关键词:信息抽取关键词抽取LDA模型
- 基于SERS与PCA-SLR实现乙基对氧磷定量检测被引量:1
- 2013年
- 利用表面增强拉曼光谱(SERS),结合主成分分析(PCA)与分段线性回归(SLR)算法实现乙基对氧磷的定量检测。首先采集820~1 630cm-1乙基对氧磷溶液SERS,并对820~1 630cm-1(全范围)与845~875cm-1(特征范围)光谱分别进行标准正态变换(SNV)、多元散射校正(MSC)、一阶导数绝对值、二阶导数等预处理;然后经PCA降维后利用SLR建立乙基对氧磷溶液浓度预测模型。通过对比不同模型的预测准确度,发现特征范围光谱采用MSC预处理后所建立的模型为最优,总体预测均方误差值(RMSEP)为0.33,满足乙基对氧磷定量检测的需要。
- 翁士状陈晟曾新华李盼郑守国尤聚军李淼朱泽德
- 关键词:表面增强拉曼光谱主成分分析
- 网络双语语料挖掘关键技术研究
- 随着统计方法的迅速发展,大规模双语语料库己成为跨语言信息处理不可或缺的基础资源。双语语料己被大量应用于挖掘双语术语、命名实体和双语词典等更细粒度的互译等价对,为统计机器翻译和跨语言信息检索等领域提供支持。然而,现有的双语...
- 朱泽德
- 关键词:跨语言词汇提取网页识别
- 基于文本密度模型的Web正文抽取被引量:13
- 2013年
- 为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分.文中提出一种基于文本密度模型的新闻网页正文抽取方法.主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容.该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练.实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型.
- 朱泽德李淼张健陈雷曾新华
- 关键词:WEB挖掘正文抽取高斯平滑