唐世渭
- 作品数:231 被引量:3,380H指数:28
- 供职机构:北京大学更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学经济管理电子电信更多>>
- 基于MapReduce的大图上距离连接查询方法
- 本发明公开了一种基于MapReduce的大图上距离连接查询方法,其步骤包括:1)提取初始化的查询参数:原图、已访问结点、拓展范围和查询结果;2)在hadoop上对原图进行双向拓展,拓展从源结点集合和目标结点集合开始,每次...
- 周家帅高军王衎王腾蛟杨冬青唐世渭
- 文献传递
- Interval^+——一种基于区间树的压缩XML索引结构1,222被引量:1
- 2006年
- XML在数据交换中的应用越来越广泛,但由于标记引入而使其空间膨胀较大,对传输及存储资源耗费严重.压缩后的XML数据容量明显减少,但怎样基于压缩后的XML数据直接进行查询及处理,仍然是需要深入研究的问题.以反向算术压缩为基本压缩算法,提出针对XML数据库中压缩XML文件的索引结构Interval+,基于该索引结构,可高效实现对类似element1element2…elmentm的查询处理.
- 包小源唐世渭杨冬青
- 关键词:XML索引
- 基于Ontology的Web内容二阶段半自动提取方法被引量:42
- 2004年
- 目前Web中的海量信息已经成为人们重要的信息来源 ,如何从大量半结构化或无结构的HTML网页中提取信息已成为目前的研究热点 .但是Web页面的初始设计目的是为了方便用户浏览 ,而不是便于应用程序自动处理 ,如何实现一个精确的、应用广泛的提取系统面临很多困难 .传统的方法可以粗略划分为基于交互产生的包装程序和自动生成的包装程序 ,但是基于交互产生的包装程序不具备普遍的应用性 ,基于自动生成的包装程序准确性不高 .该文提出了一种新的二阶段基于语义的半自动提取方法 ,在保证提取准确性的前提下 ,尽可能减少交互操作 ,同时随着参与网站的增加 ,逐步提高包装程序生成的自动化 .相对于目前的方法 ,该文方法同时考虑了包装程序提取结果的准确性和提取过程的应用普遍性 .其有效性在原型系统中得到验证 .应用该方法 ,已经成功提取了12 0万HTML页面 .
- 高军王腾蛟杨冬青唐世渭
- 关键词:搜索引擎系统信息获取ONTOLOGY网页分类
- 数据仓库技术专题讲座(六)数据仓库工程的应用范例分析被引量:1
- 1998年
- 数据仓库技术专题讲座(六)数据仓库工程的应用范例分析北京大学唐世渭裴健在前面五讲中,我们概括地介绍了数据仓库和数据仓库工程的基本概念、数据仓库工程的规划、数据仓库的体系结构、数据库设计、OLAP工具及元数据机制等方面的内容。那么,在实际的工程项目中,...
- 唐世渭裴健
- 关键词:数据仓库数据仓库技术数据库服务器决策支持报警系统应用服务器
- 可扩展标记语言数据流压缩器及其压缩方法
- 本发明公开了一种XML数据流的压缩方法,包括:接收输入的XML数据流的满足的XML Schema,根据该Schema对XML数据流经过SAX解析单元解析后的事件序列出现的频率和类型进行分析;将输入的XML数据流解析成SA...
- 高军王腾蛟杨冬青唐世渭
- 文献传递
- COSA国产系统软件平台
- 黄晓明盂庆余黄万镒唐世渭谢立卢显良程虎周明德孙玉方
- 该系统软件平台产品,包括三个基本成份:1.COSIX V1.3操作系统。适应Intel 80x86芯片构成的各种微机,符合国际标准POSIX、XPG3、XPG4,与UNIX的SVR4.0完全兼容,功能、性能不相上下。友好...
- 关键词:
- 关键词:系统软件平台操作系统数据库管理系统网络软件
- COBASE的恢复技术
- 本文阐述COBASE中所采用的的恢复技术。我们介绍了数据一致性、事务和恢复的概念,讨论了一个优良的恢复系统的准则,并阐述了COBASE的恢复策略、日志机制和恢复过程算法.
- 陶学军杨冬青关涛唐世渭
- 文献传递
- 基于DOM的网页主题信息自动提取
- Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性,信息提取有助于解决这一问题.基于DOM规范,针对HTML的半结构化特征和缺乏语义描述的不足,提出含有语义信息的...
- 王琦唐世渭杨冬青王腾蛟
- 关键词:DOM信息提取分块相关度
- 文献传递
- 朴素贝叶斯分类中的隐私保护方法研究被引量:22
- 2007年
- 数据挖掘中的隐私保护方法,试图在不精确访问原始数据详细信息的条件下,挖掘出准确的模式与规则.围绕着分类挖掘中的隐私保护问题展开研究,给出了一种基于数据处理和特征重构的朴素贝叶斯分类中的隐私保护方法.分别提出了一种针对枚举类型的隐私数据处理与特征重构方法——扩展的部分隐藏随机化回答(Extended Randomized Response with Partial Hiding,ERRPH)方法和一种针对数值类型的隐私数据处理与特征重构方法——转换的随机化回答(Transforming Randomized Response,TRR)方法,并在此基础上实现了一个完整的隐私保护的朴素贝叶斯分类算法.理论分析和实验结果均表明:朴素贝叶斯分类中基于ERRPH和TRR的隐私保护方法具有很好的隐私性、准确性、高效性和适用性.
- 张鹏唐世渭
- 关键词:数据挖掘隐私保护朴素贝叶斯分类
- 基于MapReduce扩展框架的分布式SQL查询方法
- 本发明涉及基于MapReduce扩展框架的分布式SQL查询方法,1)客户端发送查询请求到查询服务器模块QueryServer,所述查询服务器模块包括:SQL查询接口、SLQ解析模块和动态选择模块;2)所述SQL查询接口接...
- 王衎高军王腾蛟杨冬青唐世渭
- 文献传递