吴刚
- 作品数:15 被引量:58H指数:4
- 供职机构:东北大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 知识图谱数据管理系统的设计与实现被引量:1
- 2016年
- 本文在调研考察了多种图数据库的基础上,综合考量了分布式、扩展性、可用性、查询语言、容错性、存储后端、一致性等因素,并充分结合知识图谱数据自身所具有的特点,选取了当前流行的图数据库系统Titan作为底层存储,并对其进行进一步深入的研究,在此基础上实现了一个知识图谱数据管理系统。此系统能对知识图谱数据进行管理,包括数据的导入、数据的查询以及数据的修改,能支持billion数据量的存储,以及图上的基本操作,这些操作响应时间都在秒级。
- 王丽娟吴刚
- 关键词:大数据知识图谱
- 并行XML文档数据分片技术研究
- 1引言XML作为Internet数据表示和交换标准正成为海量信息资源的新型载体。为存储、索引及查询M或G字节XML文档时获得高效率,并行化是有效方法之一。
- 吴刚于亚新王国仁于戈
- 关键词:XMLPARTITION
- 文献传递
- 内存数据库的可用性综述被引量:5
- 2014年
- 随着计算机硬件技术的高速发展,内存的成本不断降低,数据库管理系统将其工作数据集完全放入内存变得可行.相比于常规的磁盘数据库,内存数据库具有更快的数据存储速度、更高的吞吐量和更强的并发访问能力,满足了许多应用的快速响应需求.然而,由于内存是易失性存储介质,与磁盘数据库在可用性方面有一定区别.本综述重点讨论了适用于内存数据库提高可用性的主要策略,包括快速恢复策略、冗余备份和容错等.
- 江泽源刘辉林吴刚王国仁
- 关键词:内存数据库可用性可靠性容错
- 数据库性能测试可视化工具VisualDBBench及面向内存数据库的应用被引量:2
- 2014年
- 从开发自动化数据库基准测试工具的角度,深入研究了TPC组织发布的TPC-C测试标准和TPC-H测试标准.在此基础上,给出了测试模型,介绍了所开发的自动化测试工具VisualDBBench的架构和主要类的功能.并且针对内存数据库进行测试,验证了内存数据库的性能优势.
- 李梁吴刚刘辉林王国仁
- 关键词:内存数据库
- 基于Prüfer序列的RDF数据索引与查询被引量:4
- 2011年
- 语义Web作为数据之网不断汇集并组织Web信息,相关应用因此面临着对语义Web所含大规模RDF数据高效访问的挑战.建立有效的索引机制是提升RDF数据管理和查询性能的一种解决之道.序列式索引既能够支持存储空间压缩又便于采用成熟的序列匹配技术进行数据处理,具有较好的查询处理性能.文中扩展Prüfer序列以支持RDF数据上的索引和查询,实现了名为Prig的原型系统.实验比较并分析了该系统与对比系统在LUBM和SP2Bench两个测试基准上的实验结果,指出扩展的Prüfer索引在大规模RDF数据上有着比对比系统更好的查询处理性能.
- 刘翔宇吴刚
- 关键词:RDF索引查询
- 一个可视化的文档浏览器X-Explorer的设计与实现
- 本文介绍了可视化技术在X-Explorer中的应用,进一步阐述了信息可视化不仅可用图象来展现多维数据,使用户加深对数据含义的理解,而且还可用形象直观的图像来指引浏览检索过程,加快浏览检索速度.
- 于亚新胡军安吴刚成杰峰王国仁于戈
- 关键词:信息可视化体系结构图形用户界面设计
- 文献传递
- 基于隐马尔可夫模型和遗传算法的地图匹配算法被引量:22
- 2017年
- 综合采用隐马尔可夫模型(HMM)和遗传算法,提出了一种新的地图匹配算法.首先初始化HMM概率矩阵,然后使用前向后向算法进行参数学习,用Viterbi算法预测一组路段序列,最后将路段序列作为种群,通过遗传算法得到最优的路段序列.采用北京市2012年出租车GPS定位数据分别对传统的基于隐马尔可夫模型的算法和新算法进行测试,实验结果表明,传统的基于隐马尔可夫模型的算法的匹配精确度低于90%,新算法的匹配精确度高达90%以上.
- 吴刚邱煜晶王国仁
- 关键词:地图匹配隐马尔可夫模型遗传算法
- 一个可视化的文档浏览器X-Explorer的设计与实现
- 1.引言信息可视化就是借助计算机图形学和图像处理技术,将数据和属性值映射成人类可用感知系统感知到的形状、颜色和位置,并在2维或3维空间展现出来,同时可进行交互处理的理论、方法和技术。虽然展现空间局限于2维或3维,但可视化...
- 于亚新胡军安吴刚成杰峰王国仁于戈
- 关键词:INDEXFILTERING
- 文献传递
- 基于典型数据集的数据预处理方法对比分析被引量:23
- 2022年
- 针对多种数据预处理方式及其组合如何提升模型拟合效果这一问题,基于UCI Machine Learning Repository典型数据集,分别利用20种变量处理方式和4种变量选择方法对数据预处理,并对模型拟合效果对比分析,分别考查了多种数据预处理方式及其组合对常见分类模型和回归模型的影响.通过对实验结果的分析讨论,提出一种启发式算法,根据数据特征、模型特点以及研究问题种类等信息推荐数据预处理方法.在更广泛的数据集上的实验结果表明,该算法所推荐的数据预处理方法可以一定程度上提升模型拟合效果,节省手工选取数据预处理方法的开销.
- 李颜平吴刚
- 关键词:数据预处理方差分析卡方检验互信息
- 数据库基准测试可视化工具的设计实现及其应用
- C-C规范作为测试数据库性能的行业标准,已被广泛使用在测试联机事务处理(OLTP)性能,但目前仍缺乏开源的可视化工具作为支持.根据TPC-C规范,介绍了一个开源VisualDBBench工具的设计与实现,并且使用Visu...
- 李梁吴刚刘辉林王国仁
- 关键词:数据库开源工具