欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

快速入门 DataWorks:基础操作演示与学习笔记

最编程 2024-01-24 13:58:39
...

开发者学堂课程【DataWorks 使用教程DataWorks 基本操作演示】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/107/detail/1866


DataWorks 基本操作演示


内容简介:

一、开发流程

二、创建工作空间

三、新建 OSS 数据源

四、新建 RDS 数据源

五、创建业务流程

六、配置 workshop_start 节点

七、新建表

八、配置离线同步节点

九、提交业务流程

十、运行业务流程

十一、确认数据是否成功导入 MaxCompute

十二、配置 ODPS SQL 节点

十三、业务流程

十四、配置数据质量监控

十五、数据可视化展现

十六、通过向导模式生成 API


一、开发流程

Workshop 教程涉及的具体开发流程如下:

1. 环境准备:

准备操作过程中需要的 MaxCompute、DataWorks 等环境。详情请参见准备环境

2. 数据采集:

学习如何从不同的数据源同步数据至 MaxCompute 中、如何快速触发任务运行、如何查看任务日志等。详情请参见采集数据

3. 数据加工:

学习如何运行数据流程图、如何新建数据表、如何新建数据流程任务节点、如何配置任务的周期调度属性。详情请参见加工数据

4. 数据质量监控:

学习如何给任务配置数据质量的监控规则,以保证任务运行的质量问题。详情请参见配置数据质量监控

5. 数据可视化展现:

学习如何通 过 Quick BI 创建网站用户分析画像的仪表板,实现所需数据的可视化展现。详情请参见数据可视化展现

6. 通过 Function Studio 开发 UDF:

习如何通过 Function Studio 开发 UDF,并将其提交至 DataStudio 的开发环境。

 

二、创建工作空间

1.使用主账号登录 DataWorks 控制台。

2.在概览页面,单击右侧的快速入口>创建工作空间。

您也可以单击左侧导航栏中的工作空间列表,切换至相应的区域后,单击创建工作空间。

3.配置创建工作空间对话框中的基本配置,单击下—步。

4.进入选择引擎界面,勾选 MaxCompute 引擎后,单击下—步。

DataWorks 已正式商用,如果该区域没有开通,需要首先开通正式商用的服务。

默认选中数据集成、数据开发、运维中心和数据质量。

5.进入引擎详情页面,配置选购引擎的参数。

实例显示名称:

实例显示名称不能超过 27 个字符,仅支持字母开头,仅包含字母、数字和下划线(_)。

Quota 组切换:

Quota 用于实现计算资源和磁盘配额。

Maxcompute 数据类型:

该选项设置后,将在 5 分钟内生效。详情请参见数据类型版本说明。

Maxcompute 项目名称:

默认与 DataWorks 工作空间的名称—致。

Maxcompute 访问身份:

包括阿里云主账号和任务负责人。

6.配置完成后,单击创建工作空间。

工作空间创建成功后,即可在工作空问列表页面查看相应内容。

 

三、新建 OSS 数据源

1.进入数据源管理页面。

i.登录 DataWorks 控制台。

ii.在左侧导航栏,单击工作空间列表。

iii.单击相应工作空间后的进入数据集成。

如果您已在 DataWorks 的某个功能模块,请单击左上方的目图标,选择全部产品>数据汇聚>数据集成,进入数据集成页面。

iv.在左侧导航栏,单击数据源,进入工作空间管理>数据源管理页面。

2.在数据源管理页面,单击右上方的新增数据源。

3.在新增数据源对话框中,选择数据源类型为 OSS。

4.在新增OSS数据源对话框,配置各项参数。

网络异常,图片无法展示
|

数据源名称:输入 oss_workshop_log。

数据源描述:对数据源进行简单描述。

适用环境:勾选开发。

说明:开发环境的数据源创建完成后,需要勾选生产,以同样方式创建生产环境的数据源,否则任务生产执行会报错。

Endpoint:输入 http://loss-cn-shanghai-internal.aliyuncs.com .

Bucket:输入 new-dataworks-workshop.

AccessKey ID:输入 LTAl4FvGT3iU4xjKotpUMAjs.

AccessKey Secret:输入 9RSUoRmNxpRC9EhC4m9PjuG7Jzy7px.

5.在资源组列表,单击相应资源组后的测试连通性

数据同步时,一个任务只能使用—种资源组。您需要测试每种资源组的连通性,以保证同步任务使用的数据集成资源组能够与数据源连通,否则将无法正常执行数据同步任务。

如果您需要同时测试多种资源组,请选中相应资源组后,单击批量测试连通性。详情请参见选择网络连通方案。

1. 连通性测试通过后,单击完成。


四、新建 RDS 数据源

1.单击当前页面左上角图标,选择全部产品数据汇聚>数据集成。

2.在左侧导航栏,单击数据源>数据源列表,进入工作空间管理>数据源管理页面。

3.在数据源管理页面,单击右上方的新增数据源。

4.在新增数据源对话框中,选择数据源类型为 My SQL

5.在新增 MySQL 数据源对话框中,配置各项参数。

图片2.png

数据源类型:选择阿里云实例模式。

数据源名称:输入 rds_workshop_log.

数据源描述:输入 RDS 日志数据同步。

适用环境:勾选开发。

说明:开发环境的数据源创建完成后,需要勾选生产,以同样方式创建生产环境的数据源,否则任务生产执行会报错。

地区:选择 RDS 实例所在的区域。

RDS 实例 ID:输入 rm-bp1z69dodhh85z9qa.

RDS 实例主账号 ID:输入 1156529087455811。

数据库名:输入 workshop.

用户名:输入 workshop.

密码:输入 workshop#2017。

6.在资源组列表,单击相应资源组后的测试连通性。

数据同步时,一个任务只能使用—种资源组。

您需要测试每种资源组的连通性,以保证同步任务使用的数据集成资源组能够与数据源连通,否则将无法正常执行数据同步任务。

如果您需要同时测试多种资源组,请选中相应资源组后,单击批量测试连通性。详情请参见选择网络连通方案。

7.测试连通性通过后,单击完成。

 

五、创建业务流程

1.单击当前页面左上方的图标,选择全部产品>数据开发> DataStudio(数据开发)。

2.在数据开发面板,右键单击业务流程,选择新建业务流程。

3.在新建业务流程对话框中,输入业务名称和描述。

注意:业务名称不能超过 128 个字符,且必须是大小写字母、中文、数字、下划线(_)以及小数点(.)。

4.单击新建。

5.进入业务流程开发面板,鼠标单击虚拟节点并拖拽至右侧的编辑页面。

6.在新建节点对话框中,输入节点名称为 workshop_start,单击提交。

图片3.png

以同样的方式新建两个离线同步节点,节点名称分别为 oss 数据同步和 rds 数据同步。

7.通过拖拽连线,将 workshop_start 节点设置为两个离线同步节点的上游节点。

图片4.png


六、配置 workshop_start 节点

1. 在数据开发页面,双击相应业务流程下的虚拟节点。打开该节点的编辑页面,单击右侧的调度配置。

2. 在调度依赖区域,单击使用工作空间根节点,设置 workshop_start 节点的上游节点为工作空间根节点。

由于新版本给每个节点都设置了输入输出节点,所以需要给 workshop_start 节点设置一个输入。此处设置其上游节点为工作空间根节点,通常命名为工作空间名称_root

图片5.png


七、新建表

1. 在数据开发页面打开新建的业务流程,右键单击 MaxCompute,选择新建>表。

 

2.在新建表对话框中,输入表名,单击提交。

此处需要创建两张表 (ods_raw_log_d和ods_user_info_d),分别存储同步过来的OSS 日志数据和 RDS 日志数据。

注意:表名必须以字母开头,不能包含中文或特殊字符,且不能超过 64 个字符。


3.通过 DDL 模式新建表。

新建 ods_raw_log_d 表。

在表的编辑页面单击 DDL 模式,输入下述建表语句。

图片6.png

--创建 OSS 日志对应目标表

CREATE TABLE IF NOT EXISTS  ods_raw_log_d (

col STRING

)

PARTITIONED BY (

dt STRING

);


新建 ods_user_info_d 表。

在表的编辑页面单击 DDL 模式,输入下述建表语句。


--创建 RDS 对应目标表

CREATE TABLE IF NOT  EXISTS ods_user_info_d (

uid STRING COMMENT '用户ID',

gender STRING COMMENT '性别',

age_range STRING COMMENT '年龄段',

zodiac STRING COMMENT '星座'

)

PARTITIONED BY (

dt STRING

);


4.单击生成表结构,并确认覆盖当前操作。


5.返回建表页面,在基本属性中输入表的中文名。


6.完成设置后,分别单击提交到开发环境和提交到生产环境。

 

八、配置离线同步节点

1.配置 oss_ 数据同步节点。

(1)在数据开发页面,双击 oss_ 数据同步节点,进入节点配置页面。

(2)选择数据来源。

图片62.png

数据源:选择 Oss > oss_workshop_log 数据源。

Object前缀:输入 OSS 文件夹的路径,请勿填写 Bucket 的名称。示例为user_log.txt。

文本类型:选择 text 类型。

列分隔符输入列分隔符为 |。

编码格式:默认为 UTF-8 格式。

null 值:表示 null 值的字符串。

压缩格式:包括 None、Gzip、Bzip2 和 Zip 四种类型,此处选择 None。

是否包含表头:默认为 No。

(3)选择数据去向。

数据源:选择 ODPS > odps_first 数据源。

表:选择数据源中的 ods_raw_log_d 表。

分区信息:默认配置为$ {bizdate}.

清理规则:默认为写入前清理已有数据。

空字符串作为 null:此处勾选否。

(4)配置字段映射。 图片63.png

(5)配置通道控制。

图片9.png

(6)单击页面右侧的调度配置,在调度依赖>本节点的输出区域,输入本节点的输出名称为工作空间名称 . ods_raw_log_d。

图片10.png

(7)确认当前节点的配置无误。

(8)关闭当前任务,返回业务流程配置面板。

2.配置 rds_  数据同步节点。

(1)在数据开发页面,双击  rds_ 数据同步节点,进入节点配置页面。

(2)选择数据来源。

图片11.png

(3)选择数据去向。

图片12.png

(4)配置字段映射。

(5)配置通道控制。

上一篇: 用Python Matplotlib绘制DW检验图和自相关图

下一篇: 使用R语言进行DW检验的步骤与方法