教育部科学技术研究重点项目(210257) 作品数:5 被引量:23 H指数:2 相关作者: 邹先霞 潘久辉 贾维嘉 陈蔼祥 吴向军 更多>> 相关机构: 中南大学 香港城市大学 暨南大学 更多>> 发文基金: 教育部科学技术研究重点项目 广东省教育部产学研结合项目 广东省科技攻关计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于数据库日志的变化数据捕获研究 被引量:19 2012年 变化数据捕获方法是数据集成基础设施的战略组成部分,不断推动ETL、EAI等技术的发展.许多数据库厂商都提供了自己的CDC(Change data capture)产品,但只限于针对本身的数据库系统,价格也比较昂贵.虽然通过扫描数据库日志文件可以捕获变化数据,但大多数数据库系统都不提供日志文件的内部格式而只是提供日志访问的程序接口,如Oracle,SQL Server和DB2等.这些提供的接口有的访问活动日志,有的访问稳定日志,有的访问归档日志,因此很难保证读取日志文件的可靠性.现有的研究主要是如何利用程序应用接口读取日志文件,忽略了对可靠性的分析.本文针对读取不同类型的日志文件的可靠性条件进行了分析,提出了可靠读取规则及读取算法;并提出了从日志文件中有效抽取变化数据算法,实验证明了可靠性分析模型. 邹先霞 贾维嘉 潘久辉关键词:数据库日志 可靠性 视图增量计算的延迟部分补偿算法 被引量:1 2011年 为解决异步传播算法中视图增量计算时间过长、占用系统资源过多及某些错误补偿问题,提出了在数据源上进行延迟部分补偿的算法。该算法要求获取数据源的基表增量时记下增量的事务时间,在实化视图层记录已用于视图增量计算的基表增量的最大事务提交时间。当计算实化视图新的增量时,比较同一个数据源在实化视图层上的记录时间与增量子查询的执行时间,如果这段时间基表产生新的增量,则进行补偿查询。补偿过程采用单个数据源上的时间进行比较,避免了全局时间问题,也解决了现有部分补偿算法可能产生的错误。该算法利用基表之间的主外码约束来减少计算次数,提高计算效率。分析和实验表明,该算法在计算效率和正确性方面都有所提高。 邹先霞 潘久辉 贾维嘉关键词:实化视图 数据仓库 基于数据源向图的数据库设计中数据关系的表示工具 被引量:2 2017年 数据库设计是信息系统需求分析到系统实现中的一个关键环节。传统的数据库设计方法需根据需求分析阶段的结果,依赖人的构造性思维抽象出对象和关系,由于对所需数据结构和关系的描述能力不足,缺少对数据项之间关系的描述,导致数据关系不明确,数据库设计结果容易出现偏差。在新的数据库设计工具——数据源向图的帮助下,对象、关系以及各数据项之间的关系能被直观、简洁、准确地表示,同时其也能极大地消除各种关系不明确而带来的二义性问题,可有效提高信息系统实现的效率。 陈冰川 陈蔼祥 吴向军 李磊关键词:数据库设计 有向图 交互式训练样本获取方法 2015年 有监督学习算法是机器学习中的一类重要算法,该类算法要求外界提供含监督信号的样本作为训练数据。虽然机器学习领域提供了许多基准测试数据,但很多情况下需要自己生成训练样本。给出了一种交互式训练样本获取方法:通过对原始图像进行一种或多种混合的随机变换,用户挑选那些能被人眼识别的样本作为有效样本加以保存。实验结果表明,所提方法产生的图片能模拟摄像头在不同角度、姿态、光照、遮挡等各种复杂场景下拍摄的图像的效果。用系统生成的训练样本训练朴素贝叶斯(NB)分类器,能达到95.042%的识别精度,结果优于UCI人工字符集训练同样的NB分类器时88.487 5%的识别精度。 陈蔼祥关键词:有监督学习 仿射变换 分类器 朴素贝叶斯 实化外连接视图的增量计算 被引量:1 2011年 针对实化外连接视图的增量维护问题,提出了利用独立计算表达式计算辅助增量的算法。该方法利用外连接运算的连接析取范式,为各个析取项建立独立计算表达式,然后利用多个独立表达式之间的公共子表达式来计算实化外连接视图的辅助增量。该方法对实化外连接SPOJ(select project outer-join)视图定义没有其他的限制条件,试验结果表明,与相同条件的算法比较起来,该算法有效地降低了计算代价。 邹先霞 贾维嘉 潘久辉