[常读常懂】大数据之路 - 阿里巴巴大数据实践》一书阅读摘要 - 章节摘要

最编程 2024-10-04 07:15:57

...

4.1 第2章日志采集

4.1.1 日志采集方案

Web端 Aplus.js
APP端 UserTrack

4.1.2 采集指标

页面浏览量 PV
访客数 UV

4.2 第3章数据同步

4.2.1 数据的特点

数据来源的多样性
数据量大

4.2.2 数据同步的三种方式

直连同步：适合操作型业务系统，批量执行拉低系统性能
数据文件同步：使用FTP传输文件，对文件进行校验
数据库日志解析：实现了实时和准实时同步能力，延迟能够控制在毫秒级别

4.2.3 数据同步的最佳实践

批量同步：DataX
实时同步：
MySQL数据库中的数据实时同步采用解析binlog日志文件的方式，通过TimeTunnel平台进行消息的分发。

4.3 第4章离线数据开发

4.3.1 工具

统一计算平台MaxCompute

同类的竞品还有Hadoop、Spark

4.4 第5章实时技术

4.4.1 概念

离线：在今天（T）处理N天前（T-N，N≥1）的数据，延迟时间粒度为天
准实时：在当前小时（H）处理N天前（H-N，N＞0,如0.5小时、1小时）的数据，延迟时间粒度为小时
实时：在当前时刻处理当前数据，延迟时间粒度为秒

4.4.2 流式数据处理

时效性高
常驻任务
性能要求高
应用局限性

4.5 第6章数据服务

SmartDQ
Lego

4.6 第7章数据挖掘

4.6.1 基于MaxCompute MPI的机器学习算法

分类	具体算法
分类算法	LogisticRegression、KNN、GBDT、DTC5.0、RandomForest、linearSVM、nonlinearSVM、NativeBayes、Bayes、Fisher判别、马氏距离判别、标签传播分裂等
回归算法	LogisticRegression、GBDT、LASSO、RidgeRegression、Factorization Machines、XGBoost等
聚类算法	K-Means、Canopy、PSC谱聚类、标签传播聚类、EM聚类等
推荐算法	etrec协同过滤（`阿里商品协同过滤算法`）、SVD协同过滤、ALS协同过滤等
深度学习	Word2Vec、Doc2Vec、CNN、DBN、DeepMatchModel等
其他	PageRank、LDA、lLSA、关联规则、NMF、CRF、SVD、RankSVM、PCA、kcore、sssp、Modularity计算等

4.6.2 数据挖掘流程

数据挖掘流程包括商业理解、数据准备、特征工程、模型训练、模型测试、模型部署、线上应用及效果反馈这8个环节。

4.6.3 挖掘数据中台体系

4.6.3.1 数据中台

4.6.3.1.1 演进路线

数据中台演进的4个阶段。
在这里插入图片描述

4.6.3.1.2 分层

数据中台分为三层。特征层、中间层、应用层。
在这里插入图片描述

4.6.3.2 算法中台

个体挖掘应用
关系挖掘应用

4.7 第8章大数据领域建模综述

4.7.1 数据仓库建模方法

ER模型：高层建模、中层建模、物理建模
维度模型：选择分析决策业务过程、选择粒度、识别维表、选择事实
Data Vault模型：ER模型的衍生，更容易设计和产出
Anchor模型：Data Vault模型的规范处理，只增加不修改，规范到6NF

4.8 第9章阿里巴巴数据整合及管理体系

4.8.1 阿里集团大数据建设方法论

从业务架构设计到模型设计，从数据研发到数据服务，做到数据可管理、可追溯、可规避重复建设。

4.8.2 维度模型建设

4.8.2.1 维度模型层次

维度模型层次关系图如下图所示。
在这里插入图片描述

4.8.2.1 维度模型规范定义

在这里插入图片描述

4.8.3 模型实施

4.8.3.1 Kimball模型实施

高层模型
详细模型
模型审查、再设计和验证
提交ETL设计和开发

4.8.4 OneData实时工作流

图来源于阿里巴巴OneData大数据建设方法论(精华)博客。
在这里插入图片描述

4.9 第10章维度设计

维度是维度建模的基础和灵魂。

上一篇： [C++][第三方库][gtest]详解

下一篇： [生成模型]学习笔记

[常读常懂】大数据之路 - 阿里巴巴大数据实践》一书阅读摘要 - 章节摘要

4.1 第2章 日志采集

4.1.1 日志采集方案

4.1.2 采集指标

4.2 第3章 数据同步

4.2.1 数据的特点

4.2.2 数据同步的三种方式

4.2.3 数据同步的最佳实践

4.3 第4章 离线数据开发

4.3.1 工具

4.4 第5章 实时技术

4.4.1 概念

4.4.2 流式数据处理

4.5 第6章 数据服务

4.6 第7章 数据挖掘

4.6.1 基于MaxCompute MPI的机器学习算法

4.6.2 数据挖掘流程

4.6.3 挖掘数据中台体系

4.6.3.1 数据中台

4.6.3.1.1 演进路线

4.6.3.1.2 分层

4.6.3.2 算法中台

4.7 第8章 大数据领域建模综述

4.7.1 数据仓库建模方法

4.8 第9章 阿里巴巴数据整合及管理体系

4.8.1 阿里集团大数据建设方法论

4.8.2 维度模型建设

4.8.2.1 维度模型层次

4.8.2.1 维度模型规范定义

4.8.3 模型实施

4.8.3.1 Kimball模型实施

4.8.4 OneData实时工作流

4.9 第10章 维度设计

[常读常懂】大数据之路 - 阿里巴巴大数据实践》一书阅读摘要 - 章节摘要

4.1 第2章日志采集

4.2 第3章数据同步

4.3 第4章离线数据开发

4.4 第5章实时技术

4.5 第6章数据服务

4.6 第7章数据挖掘

4.7 第8章大数据领域建模综述

4.8 第9章阿里巴巴数据整合及管理体系

4.9 第10章维度设计