陈佳
- 作品数:4 被引量:17H指数:2
- 供职机构:南京工业大学电子与信息工程学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于条件随机域CRF模型的文本信息抽取被引量:11
- 2008年
- 为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法。该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习得出的模型,实现科研论文数据集头部文本信息的抽取。实验结果表明,使用CRF模型的抽取准确率达到90%以上,远远高于使用HMM模型的抽取准确率。
- 周晶吴军华陈佳陈沈焰
- 关键词:条件随机域文本信息抽取特征集
- 基于混合Markov模型的用户浏览预测被引量:3
- 2009年
- 建立有效的用户浏览预测模型,准确的预测用户的浏览路径,是开发各种Web站点导航工具的关键。传统的Markov模型是一种简单而有效的预测模型,但它存在测准确率低、预测覆盖率低以及存储复杂度高等缺点。通过对传统Markov模型的扩展,并研究了群体用户在Web上的浏览特性,采用了基于混合Markov模型的用户群兴趣导航发现方法。实验结果表明,该方法比传统Markov模型更准确的反映了用户的访问兴趣,可以获得更高的预测准确率与覆盖率,以及有效地降低存储复杂度。
- 陈佳吴军华
- 关键词:WEB导航用户群兴趣度
- 一种基于Web日志挖掘的用户偏爱度度量方法被引量:1
- 2008年
- 分析了用户访问Web站点的浏览日志,度量用户的浏览行为.实验从实际获得的Web日志着手,进行Web日志的挖掘,提取用户浏览Web的行为特性数据.通过时间阈值进行会话的划分,选取合适的数据预处理,归一化后生成数据模式向量,引入人工神经网络中的自组织特征映射(SOM)模型,对用户访问倾向聚类,对用户浏览的偏爱度进行度量,为Web站点的进化提供依据.
- 陈佳吴军华
- 关键词:WEB日志神经网络聚类
- 一种新的预测用户浏览模式的度量方法被引量:2
- 2010年
- 在Web环境中,度量用户的浏览模式对Web站点结构的改进是有益的。挖掘和度量Web日志能够识别用户的访问模式模型,Web站点管理者能够应用这些模型研究用户的访问偏爱度,由此改进站点的体系结构以及分析这些改进带来的影响。因此,提出用户群偏爱度这样一个新概念,并使用了基于用户群的模糊聚类算法(UGFC),然后根据聚类结果,即具有相似访问习惯的用户群体,度量用户群偏爱度,再基于用户群偏爱度,利用混合阶Markov模型(HOMM)进行预测。实验表明,这种新的度量预测方法(UGFC-HOMM)比传统Markov模型(TMM)预测更准确,并且实验用精确率、覆盖率和运行时间这3个度量评价值对预测性能进行评估。
- 陈佳吴军华
- 关键词:WEB日志模糊聚类算法