苏州大学计算机科学与技术学院智能化信息处理技术研究所
- 作品数:128 被引量:602H指数:13
- 相关作者:胡鹏昱蔡欣宝黄黎郑冬冬岳亮更多>>
- 相关机构:广东水利电力职业技术学院计算机信息工程系安徽工业大学计算机学院西北工业大学理学院应用数学系更多>>
- 发文基金:国家自然科学基金教育部科学技术研究重点项目江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术电子电信医药卫生天文地球更多>>
- Deep Web查询接口的自动判定被引量:29
- 2007年
- 传统搜索引擎仅可以索引浅层Web页面,然而在网络深处隐含着大量、高质量的信息,传统搜索引擎由于技术原因不能索引这些被称之为Deep Web的页面。由于查询接口是Deep Web的唯一入口,因此要获取Deep Web信息就需判定哪些网页表单是Deep Web查询接口。文中介绍了一种利用朴素贝叶斯分类算法自动判定网页表单是否为Deep Web查询接口的方法,并实验验证了该方法的有效性。
- 高岭赵朋朋崔志明
- 关键词:深网网页表单特征提取朴素贝叶斯分类
- Deep Web中基于表单特征的松弛方法
- 2012年
- 在Deep Web数据集成系统中进行查询松弛时,面对众多异构数据源的属性,如何来判断松弛的先后顺序目前没有很好的方法。根据表单特征来判定属性的重要程度,提出一种针对Deep Web环境的属性松弛顺序判定方法。同时在结果的排序过程中考虑影响松弛结果与查询条件相似性的主要因素,提出了一种更为高效的排序方法。实验结果表明了该方法的有效性。
- 陈明郭建兵赵朋朋崔志明
- 关键词:深网数据集成
- 最小差异采样的主动学习图像分类方法被引量:4
- 2014年
- 针对委员会成员模型投票不一致性的度量问题,提出了一种基于最小差异采样的主动学习图像分类方法。该方法首先基于标注样本集的重采样结果构建决策委员会,然后利用投票概率较高的2个类别的概率值的差异来度量未标注样本集每个样本的投票不一致性,选择概率差异最小的样本交由人工专家标注,如此迭代更新分类器。将新方法与EQB算法及nEQB算法在多个数据集上进行实验对比,实验结果表明所提方法能够有效提高分类的准确率。还对组成决策委员会的成员模型的数目设置进行了分析和讨论,结果表明在相同的成员模型数目时所提方法比nEQB算法更为有效。
- 吴健盛胜利赵朋朋崔志明
- 关键词:图像分类采样策略
- 基于主题模型的位置感知订阅发布系统被引量:3
- 2018年
- 随着移动互联网的迅速发展和智能手机的普及,基于位置感知的订阅发布系统在工业界和学术界引起了广泛重视。现有系统主要处理海量空间数据下订阅与事件的查询匹配问题,其匹配模型主要是基于空间关键字之间的相似性,鲜有研究考虑语义相关性。为了探索并实现订阅发布系统在语义上的查询与匹配,提出了一种基于主题模型的位置感知订阅发布系统。首先,该系统利用主题模型对订阅发布系统中的关键字进行主题映射。然后,设计了一种两步分区索引结构RP^(TM)-trees,并使用该索引结构为订阅的主题集合和空间信息建立索引。RP^(TM)-trees根据主题集合的主题个数及关键主题对订阅进行两步分区索引,使其对订阅的分区能力更强,从而显著提升查询匹配的效率。最后,在高流速的事件流、千万级订阅数据集上进行了实验,实验结果表明所提方案是稳定和高效的。
- 鲜学丰崔志明赵朋朋刘昭斌顾才东
- 关键词:索引
- 基于属性高频字的深网数据库重叠率估计被引量:3
- 2009年
- 在同一领域中,不同Web数据库之间有重叠部分,为估计重叠部分在Web数据库中所占比例,提出一种基于属性高频字的重叠率估计方法。以中文高频字作为起点,迭代诱导属性高频字。通过属性高频字的查询结果计算重叠部分出现的条件概率,进而估计重叠率。实验证明,该方法的偏差度和波动度都小于5。
- 苗忠义赵朋朋胡鹏昱崔志明
- 关键词:深网数据库
- 基于SIFT特征度量的Mean Shift目标跟踪算法被引量:8
- 2011年
- 传统的Mean Shift算法,在诸如跟踪目标出现尺度变化、旋转、噪声干扰等复杂情况下,无法得到准确的跟踪结果。提出了一种基于尺度不变特征变换SIFT(Scale Invariant Feature Transform)特征度量的Mean Shift目标跟踪算法,首先根据SIFT算子计算跟踪目标附近的关键点位置和尺度,并获取该尺度空间下关键点邻域的特征向量,然后用跟踪目标区域内的特征向量的模值-方向分布直方图表示该目标,最后使用Mean Shift算法进行跟踪。实验结果表明,该算法在跟踪目标出现尺度变化、旋转、噪声干扰和遮挡等情况下能够准确地跟踪物体,鲁棒性好。
- 翟海涛吴健陈建明崔志明
- 关键词:SIFTSHIFTSHIFT目标跟踪
- 元搜索引擎中基于用户兴趣的个性化调度模型被引量:26
- 2005年
- 元搜索引擎的调度策略是研究元搜索引擎如何为用户选择数量合适并贴近用户查询需求的成员引擎,以较小的资源耗费,帮助用户获得较高的查询质量。该文提出了基于兴趣分类采样的成员引擎特征表示的方法和基于用户兴趣的成员引擎个性化调度算法。调度算法根据用户的兴趣计算出各成员引擎与用户查询的相关度,为用户选择最具有潜在有用的多个成员引擎来为用户提供查询服务。实验表明,该模型提高了用户的检索效率和质量。
- 徐科黄国景崔志明
- 关键词:元搜索引擎个性化调度策略用户兴趣
- 深网数据源质量估计模型被引量:9
- 2009年
- 为从海量深网中获得有价值的信息,提出一种深网数据源质量估计模型,综合考虑接口查询能力、接口页面质量和服务质量3方面因素,采用SVM和Ranking SVM机器学习方法得到质量估计函数。实验结果表明,该估计函数得到的数据源质量排序序列和人工排序序列的Kendall’sτ距离超过0.5,且获得较高的精度。
- 胡鹏昱赵朋朋方巍崔志明
- 关键词:深网查询能力查询接口服务质量
- 基于Web Services的商务智能研究被引量:5
- 2008年
- 在信息化过程中,企业需要实时准确地寻找信息模型,不同企业之间知识信息和智能分析能力的共享和交互的需求变得越来越迫切。本文分析了Web服务的动态性和实时性的优势,提出并阐述了基于Web服务的商务智能网络的体系结构及其实现,从而将商务智能的前瞻性和Web服务的时效性有机结合起来,提升了企业的决策能力。
- 吴良清黄黎陈建明
- 关键词:商务智能WEB服务
- 用Capture-Recapture方法估计Web数据库大小被引量:1
- 2009年
- 为了估计网络数据库的大小,提出了基于Capture-Recapture过滤二字亲密、二字排斥的方法。通过在接口文本框提交属性高频字,利用返回的结果集,在两两之间作交集,根据交集中的两字分布分析采样的独立性,过滤掉其中不独立的情况,再利用Capture-Recapture方法估计网络数据库的大小。在模拟和真实的环境下进行了实验,该方法偏差度和波动度均较小。
- 苗忠义胡鹏昱崔志明
- 关键词:深网网络数据库