大数据的概念很火,但人们对它的认识却是混乱的:有人说大数据就是指所有的数据,有人说大数据是指线上行为、日志等半结构/非结构化的数据形态,有人说大数据就是以Hadoop为代表的新技术……到底什么是大数据?同样风风火火了很久的云计算与大数据有什么关系?令人眼花缭乱的众多大数据技术的本质是什么?各有什么优缺点?争论不休的“小变大”与“大变小”技术策略到底孰正孰邪?企业究竟应该如何定位与使用大数据,难道是为了Hadoop而Hadoop?未来的技术方向究竟如何?本书结合现代企业数据管理实践,从策略、技术、应用、企业数据架构等多个维度,体系化地对大数据及相关技术进行了全面深入的论述:首先对大数据相关概念予以澄清;接着深入剖析各种大数据技术的内在本质,指出其各自的优缺点、适用场景与相互关系;同时对大数据技术“分”与“合”这两种广受争议的技术策略的内在联系进行了分析与讨论,明确指出现代数据管理技术的发展趋势;最后结合大数据时代企业新一代数据架构规划的实际,对大数据及相关技术在企业数据体系中的具体定位给出了切实可行的建议,并且面向云数据中心建设,提出了大数据云――云计算数据基础设施的概念与方法。
北京大学计算科学技术系博士后,中国航空史研究会会员,科技部中小企业创新基金评审专家,第一届中国软件十大杰出青年候选人。1992年起从事软件的设计、开发与管理工作,涉及信息系统、数据管理、图形图像、嵌入式系统及工业设计与生产等多个领域,目前为止主持设计与开发大中型软件系统与产品二十余项;在国内外核心期刊上发表科技论文20余篇,被美国EI《工程索引》检索6篇。曾任北京北大青鸟信息工程有限责任公司总工程师,北京青鸟华光科技有限公司技术管理部部长、总经理助理、总工程师,大唐微电子科技有限公司高级项目经理等职;自2003年起,在北美从事软件系统分析与设计工作近七年之久。现任北京安德尔国际软件有限公司总经理,董事,北京先进数通科技有限公司BI事业部首席架构师。科技部中小企业创新基金评审委员中国航空史研究会会员公安部安防技术专家委员会委员中国青年科技工作者协会会员
第1部分 大数据概论
第1章 大数据与云计算 2
1.1 云计算概论 3
1.2 大数据概论 4
1.2.1 现代数据管理需求分析 4
1.2.2 大数据的引入 9
1.2.3 大数据的定义与特征 10
1.2.4 大数据与互联网 12
1.2.5 大数据战略、大数据与大数据技术 14
1.3 大数据的技术实现――云计算 15
1.4 本章小结 16
第2章 关系数据库的挑战与应对 17
2.1 关系数据库技术的核心特征 18
2.2 主流关系数据库的挑战 22
2.2.1 经典DBMS的挑战 22
2.2.2 Shared Disk 23
2.2.3 Shared Nothing 24
2.3 改进型关系数据库 26
2.3.1 技术改进 26
2.3.2 主要产品代表 30
2.4 本章小结 40
第3章 非SQL技术简介 41
3.1 大数据技术家族 42
3.1.1 NoSQL 42
3.1.2 关系数据库联邦NewSQL 42
3.1.3 分布式海量文件管理 43
3.1.4 Map Reduce 43
3.2 分与合――云计算的两种技术路线 44
3.3 本章小结 44
第 2部分 “分”为云――数据切分
第4章 NoSQL 46
4.1 NoSQL的引入 47
4.1.1 概念诠释与特征分析 47
4.1.2 NoSQL的本质 50
4.2 NoSQL家族 52
4.2.1 NoSQL产品目录与分类 52
4.2.2 Hadoop之HBase 54
4.2.3 Facebook之Cassandra 58
4.2.4 MongoDB与CouchDB 61
4.2.5 Oracle NoSQL DB 63
4.2.6 Memcached与Redis 65
4.2.7 图数据库Neo4J 65
4.2.8 其他NoSQL数据库 67
4.2.9 问题与疑惑 67
4.3 NoSQL技术探研 68
4.3.1 NoSQL理论基础 68
4.3.2 NoSQL技术手段 75
4.3.3 NoSQL技术解析 83
4.4 NoSQL与关系数据库 88
4.5 本章小结 89
第5章 NewSQL――关系数据库联邦 90
5.1 数据库联邦的引入 91
5.1.1 企业业务数据管理面临的问题 91
5.1.2 垂直分库 92
5.1.3 水平分表 93
5.1.4 读写分离 95
5.1.5 联邦的引入 97
5.2 “联邦”的设计与实践 99
5.2.1 企业级“联邦”架构设计 99
5.2.2 公共基础服务设计 103
5.2.3 联邦的元数据库 106
5.2.4 联邦的应用实践 107
5.3 “联邦”技术分析 108
5.3.1 关于“垂直分库” 108
5.3.2 如何“水平分表” 110
5.3.3 关于“读写分离” 112
5.3.4 基本方法――分布与聚合 114
5.3.5 关于分布式事务 116
5.3.6 关联操作 117
5.2.7 冗余策略 119
5.2.8 异步解耦策略 120
5.2.9 使用缓存 122
5.2.10 其他问题 123
5.4 数据库联邦、NoSQL与主流关系数据库 124
5.4.1 技术与应用――八仙过海,各显神通 124
5.4.2 互联网的神话 126
5.5 本章小结 128
第6章 文件系统联邦 129
6.1 问题的引入 130
6.1.1 关于几个数据概念的澄清 130
6.1.2 文件数据管理的困难 131
6.1.3 文件系统联邦的引入 133
6.2 典型开源技术介绍 135
6.2.1 MogileFS 135
6.2.2 FastDFS 136
6.2.3 MogileFS与FastDFS的对比 138
6.3 技术分析 139
6.4 本章小结 140
第7章 平民化的分布计算――MapReduce 141
7.1 分布式计算概述 142
7.1.1 几个概念的澄清 142
7.1.2 分布式计算技术综述 143
7.1.3 MapReduce的引入 147
7.2 MapReduce技术介绍 148
7.2.1 设计思想 148
7.2.2 MapReduce框架介绍 152
7.3 MapReduce技术分析 160
7.3.1 关于效率 160
7.3.2 关于扩展性 162
7.3.3 关于可靠性与可用性 163
7.3.4 关于MapReduce与关系数据库 164
7.3.5 关于适用的数据类型 167
7.3.6 关于数据存储与管理 168
7.4 MapReduce的应用实践 169
7.5 本章小结 170
第8章 后Hadoop时代 171
8.1 Hadoop体系及其困惑 172
8.2 Google的新三驾马车 173
8.2.1 新一代搜索引擎Caffeine 173
8.2.2 大规模图处理系统Pregel 174
8.2.3 Dremel――秒级实现PB级数据分析 175
8.3 Symphony MapReduce 181
8.4 后Hadoop时代即将来临 181
8.5 本章小结 183
第9章 InfiniData―一种关系型云数据库的设计与实践 184
9.1 现代企业数据管理需求再分析 185
9.1.1 新的企业数据需求――海量关系数据管理 185
9.1.2 技术分析 187
9.2 关系型云数据库架构设计 188
9.2.1 关系型云数据库的引入 188
9.2.2 技术架构设计 189
9.3 云存储层 192
9.3.1 逻辑架构 193
9.3.2 物理架构 194
9.3.3 关系模型云存储元 196
9.4 云计算层 198
9.4.1 MapReduce云计算引擎 198
9.4.2 集群式云计算引擎 200
9.4.3 两种引擎的比较 201
9.5 云存储索引层 202
9.5.1 存储索引的管理 202
9.5.2 索引云运行时动态创建 203
9.6 技术分析 203
9.7 本章小结 205
第3部分 云计算的分与合
第10章 合为“云”――数据整合 208
10.1 数据整合的需求分析 209
10.2 存储整合云 210
10.3 数据库整合云 211
10.4 本章小结 213
第11章 关于分与合的讨论 214
11.1 困惑――分与合,孰是孰非? 215
11.2 分为技,合为神 216
11.3 分为雨,合为云――大数据云 217
11.4 数据管理技术发展趋势总结 219
11.4.1 数据管理物理基础设施发展趋势 219
11.4.2 数据管理软基础设施发展趋势 220
11.5 本章小结 221
第12章 企业大数据技术体系与云计算数据基础设施 222
12.1 现代企业数据管理需求再分析 223
12.2 新一代企业数据体系建设 225
12.2.1 新一代企业数据体系建设的定义与内容 225
12.2.2 新一代企业数据分类体系 228
12.2.3 新一代企业数据分布与流转规划 230
12.3 大数据技术在企业数据架构中的定位 234
12.3.1 技术规划战略 234
12.3.2 大数据技术架构规划 235
12.3.3 典型场景――电子渠道线上行为分析 238
12.4 云计算数据基础设施概念的引入 240
12.5 本章小结 242
后记――超越技术 243
参考文献 245
纵横大数据:云计算数据基础设施pdf