數據交易導航網是一個數據要素市場相關的數據交易、數據管理、數據服務等數商企業商業生態導航平臺。
數據產品
——? PRODUCTS CENTER? ——
本書按照需求規劃、需求實現、需求可視化的流程進行編排,遵循項目開發的實際流程,全面介紹了數據倉庫的搭建過程。在整個數據倉庫的搭建過程中,本書介紹了主要組件的安裝部署過程、需求實現的具體思路、部分問題的解決方案等,并在其中穿插了許多與大數據和數據倉庫相關的理論知識,包括大數據概論、數據倉庫概論、電商業務概述、數據倉庫理論準備、數據倉庫建模等。
本書從邏輯上可以分為三部分:一是大數據與數據倉庫概論及項目需求描述,主要介紹了數據倉庫的概念、應用場景和搭建需求;二是項目部署的環境準備,介紹了如何從零開始搭建一個完整的數據倉庫環境;三是需求模塊實現,針對不同需求分模塊進行實現,是本書的重點部分。
本書適合具有一定的編程基礎并對大數據感興趣的讀者閱讀。通過閱讀本書,讀者可以快速了解數據倉庫,全面掌握數據倉庫的相關技術。
尚硅谷IT教育是一家專業的IT教育培訓機構,開設了JavaEE、大數據、HTML5前端等多門學科,在互聯網上發布的JavaEE、大數據、HTML5前端、區塊鏈、C語言、Python等技術視頻教程廣受贊譽。
第1章 大數據與數據倉庫概論 1
1.1 大數據概論 1
1.1.1 什么是大數據 1
1.1.2 大數據生態圈簡介 2
1.1.3 大數據應用場景 3
1.2 數據倉庫概論 4
1.2.1 什么是數據倉庫 4
1.2.2 數據倉庫能干什么 4
1.2.3 數據倉庫的特點 5
1.3 學前導讀 6
1.3.1 學習的基礎要求 6
1.3.2 你將學到什么 7
1.4 本章總結 7
第2章 項目需求描述 8
2.1 任務概述 8
2.1.1 產品描述 9
2.1.2 系統目標 9
2.1.3 系統功能結構 9
2.1.4 系統流程圖 10
2.2 業務描述 10
2.2.1 采集模塊業務描述 10
2.2.2 數據倉庫需求業務描述 16
2.2.3 數據可視化業務描述 17
2.3 系統運行環境 17
2.3.1 硬件環境 17
2.3.2 軟件環境 18
2.4 本章總結 20
第3章 項目部署的環境準備 21
3.1 Linux環境準備 21
3.1.1 VMware安裝 21
3.1.2 CentOS安裝 21
3.1.3 遠程終端安裝 31
3.2 Linux環境配置 34
3.2.1 網絡配置 34
3.2.2 網絡IP地址配置 35
3.2.3 主機名配置 36
3.2.4 防火墻配置 37
3.2.5 一般用戶設置 38
3.3 Hadoop環境搭建 38
3.3.1 虛擬機環境準備 39
3.3.2 JDK安裝 45
3.3.3 Hadoop安裝 46
3.3.4 Hadoop分布式集群部署 47
3.3.5 配置Hadoop支持LZO壓縮 52
3.3.6 配置Hadoop支持Snappy壓縮 53
3.4 本章總結 54
第4章 用戶行為數據采集模塊 55
4.1 日志生成 55
4.2 采集日志的Flume 57
4.2.1 Flume組件 58
4.2.2 Flume安裝 58
4.2.3 采集日志Flume配置 59
4.2.4 Flume的ETL攔截器和日志類型區分攔截器 61
4.2.5 采集日志Flume啟動、停止腳本 67
4.3 消息隊列Kafka 68
4.3.1 Zookeeper安裝 68
4.3.2 Zookeeper集群啟動、停止腳本 70
4.3.3 Kafka安裝 71
4.3.4 Kafka集群啟動、停止腳本 73
4.3.5 Kafka Topic相關操作 74
4.4 消費Kafka日志的Flume 75
4.4.1 消費日志Flume配置 75
4.4.2 消費日志Flume啟動、停止腳本 78
4.5 采集通道啟動、停止腳本 79
4.6 本章總結 80
第5章 業務數據采集模塊 81
5.1 電商業務概述 81
5.1.1 電商業務流程 81
5.1.2 電商常識 82
5.1.3 電商表結構 82
5.1.4 數據同步策略 89
5.2 業務數據采集 90
5.2.1 MySQL安裝 90
5.2.2 業務數據生成 92
5.2.3 業務數據建模 94
5.2.4 Sqoop安裝 96
5.2.5 業務數據導入數據倉庫 97
5.3 本章總結 109
第6章 數據倉庫搭建模塊 110
6.1 數據倉庫理論準備 110
6.1.1 范式理論 110
6.1.2 關系模型與維度模型 113
6.1.3 星形模型、雪花模型與星座模型 114
6.1.4 表的分類 116
6.1.5 為什么要分層 117
6.1.6 數據倉庫建模 118
6.1.7 業務術語 121
6.2 數據倉庫搭建環境準備 123
6.2.1 MySQL HA 123
6.2.2 Hive安裝 130
6.2.3 Tez引擎安裝 134
6.3 數據倉庫搭建——ODS層 138
6.3.1 創建數據庫 138
6.3.2 用戶行為數據 138
6.3.3 ODS層用戶行為數據導入腳本 141
6.3.4 業務數據 142
6.3.5 ODS層業務數據導入腳本 151
6.4 數據倉庫搭建——DWD層 154
6.4.1 用戶行為啟動日志表解析 154
6.4.2 用戶行為事件表拆分 157
6.4.3 用戶行為事件表解析 167
6.4.4 業務數據維度表解析 189
6.4.5 業務數據事實表解析 195
6.4.6 拉鏈表構建之用戶維度表 209
6.4.7 DWD層數據導入腳本 214
6.5 數據倉庫搭建——DWS層 223
6.5.1 系統函數 223
6.5.2 用戶行為數據聚合 224
6.5.3 業務數據聚合 226
6.5.4 DWS層數據導入腳本 237
6.6 數據倉庫搭建——DWT層 246
6.6.1 設備主題寬表 247
6.6.2 會員主題寬表 249
6.6.3 商品主題寬表 251
6.6.4 優惠券主題寬表 254
6.6.5 活動主題寬表 256
6.6.6 DWT層數據導入腳本 258
6.7 數據倉庫搭建——ADS層 264
6.7.1 設備主題 264
6.7.2 會員主題 272
6.7.3 商品主題 275
6.7.4 營銷主題 279
6.7.5 ADS層數據導入腳本 283
6.8 結果數據導出腳本 291
6.9 會員主題指標獲取的全調度流程 293
6.9.1 Azkaban安裝 293
6.9.2 創建可視化的MySQL數據庫和表 300
6.9.3 編寫指標獲取調度流程 301
6.10 本章總結 306
第7章 數據可視化模塊 307
7.1 模擬可視化數據 307
7.1.1 會員主題 307
7.1.2 地區主題 308
7.2 Superset部署 310
7.2.1 環境準備 310
7.2.2 Superset安裝 312
7.3 Superset使用 314
7.3.1 對接MySQL數據源 314
7.3.2 制作儀表盤 317
7.4 本章總結 322
第8章 即席查詢模塊 323
8.1 Presto 323
8.1.1 Presto特點 323
8.1.2 Presto安裝 324
8.1.3 Presto優化之數據存儲 328
8.1.4 Presto優化之查詢SQL 329
8.1.5 Presto注意事項 330
8.2 Druid 330
8.2.1 Druid簡介 330
8.2.2 Druid框架原理 331
8.2.3 Druid數據結構 332
8.2.4 Druid安裝(單機版) 333
8.3 Kylin 338
8.3.1 Kylin簡介 338
8.3.2 HBase安裝 339
8.3.3 Kylin安裝 341
8.3.4 Kylin使用 343
8.3.5 Kylin Cube構建原理 353
8.3.6 Kylin Cube構建優化 356
8.3.7 Kylin BI工具集成 360
8.4 即席查詢框架對比 367
8.5 本章總結 368
第9章 元數據管理模塊 369
9.1 Atlas入門 369
9.1.1 Atlas概述 369
9.1.2 Atlas架構原理 370
9.2 Atlas安裝及使用 371
9.2.1 安裝前環境準備 371
9.2.2 集成外部框架 373
9.2.3 集群啟動 377
9.2.4 導入Hive元數據到Atlas 377
9.3 Atlas界面查看及使用 378
9.3.1 查看基本信息 378
9.3.2 查看血緣依賴關系 381
9.4 本章總結 386
相關推薦
在線咨詢