[常读常懂】大数据之路 - 阿里巴巴大数据实践》一书阅读摘要 - 章节摘要
最编程
2024-10-04 07:15:57
...
4.1 第2章 日志采集
4.1.1 日志采集方案
- Web端 Aplus.js
- APP端 UserTrack
4.1.2 采集指标
- 页面浏览量 PV
- 访客数 UV
4.2 第3章 数据同步
4.2.1 数据的特点
- 数据来源的多样性
- 数据量大
4.2.2 数据同步的三种方式
- 直连同步:适合操作型业务系统,批量执行拉低系统性能
- 数据文件同步:使用FTP传输文件,对文件进行校验
- 数据库日志解析:实现了实时和准实时同步能力,延迟能够控制在毫秒级别
4.2.3 数据同步的最佳实践
- 批量同步:DataX
- 实时同步:
MySQL数据库中的数据实时同步采用解析binlog日志文件的方式,通过TimeTunnel平台进行消息的分发。
4.3 第4章 离线数据开发
4.3.1 工具
统一计算平台MaxCompute
同类的竞品还有Hadoop
、Spark
4.4 第5章 实时技术
4.4.1 概念
- 离线:在今天(T)处理N天前(T-N,N≥1)的数据,延迟时间粒度为
天
- 准实时:在当前小时(H)处理N天前(H-N,N>0,如0.5小时、1小时)的数据,延迟时间粒度为
小时
- 实时:在当前时刻处理当前数据,延迟时间粒度为
秒
4.4.2 流式数据处理
- 时效性高
- 常驻任务
- 性能要求高
- 应用局限性
4.5 第6章 数据服务
- SmartDQ
- Lego
4.6 第7章 数据挖掘
4.6.1 基于MaxCompute MPI的机器学习算法
分类 | 具体算法 |
---|---|
分类算法 | LogisticRegression、KNN、GBDT、DTC5.0、RandomForest、linearSVM、nonlinearSVM、NativeBayes、Bayes、Fisher判别、马氏距离判别、标签传播分裂等 |
回归算法 | LogisticRegression、GBDT、LASSO、RidgeRegression、Factorization Machines、XGBoost等 |
聚类算法 | K-Means、Canopy、PSC谱聚类、标签传播聚类、EM聚类等 |
推荐算法 | etrec协同过滤(阿里商品协同过滤算法 )、SVD协同过滤、ALS协同过滤等 |
深度学习 | Word2Vec、Doc2Vec、CNN、DBN、DeepMatchModel等 |
其他 | PageRank、LDA、lLSA、关联规则、NMF、CRF、SVD、RankSVM、PCA、kcore、sssp、Modularity计算等 |
4.6.2 数据挖掘流程
数据挖掘流程包括商业理解、数据准备、特征工程、模型训练、模型测试、模型部署、线上应用及效果反馈这8个环节。
4.6.3 挖掘数据中台体系
4.6.3.1 数据中台
4.6.3.1.1 演进路线
数据中台演进的4个阶段。
4.6.3.1.2 分层
数据中台分为三层。特征层、中间层、应用层。
4.6.3.2 算法中台
- 个体挖掘应用
- 关系挖掘应用
4.7 第8章 大数据领域建模综述
4.7.1 数据仓库建模方法
- ER模型:高层建模、中层建模、物理建模
- 维度模型:选择分析决策业务过程、选择粒度、识别维表、选择事实
- Data Vault模型:ER模型的衍生,更容易设计和产出
- Anchor模型:Data Vault模型的规范处理,只增加不修改,规范到6NF
4.8 第9章 阿里巴巴数据整合及管理体系
4.8.1 阿里集团大数据建设方法论
从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。
4.8.2 维度模型建设
4.8.2.1 维度模型层次
维度模型层次关系图如下图所示。
4.8.2.1 维度模型规范定义
4.8.3 模型实施
4.8.3.1 Kimball模型实施
- 高层模型
- 详细模型
- 模型审查、再设计和验证
- 提交ETL设计和开发
4.8.4 OneData实时工作流
图来源于阿里巴巴OneData大数据建设方法论(精华)博客。
4.9 第10章 维度设计
维度是维度建模的基础和灵魂。
上一篇: [C++][第三方库][gtest]详解
下一篇: [生成模型]学习笔记