欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

从零开始构建大数据平台:数据采集系列之二 - 数据来源与大数据采集

最编程 2024-01-13 13:43:52
...

「从 0 到 1 搭建大数据平台之开篇」中,我们知道了大数据的特性。

在这里插入图片描述

海量的数据: 大而复杂的数据集。

复杂的数据:数据类型的多样性,包括文本,图片,视频,音频。

高速的数据:数据的产生呈指数式爆炸式增长,要求处理数据的速度越来越高。

数据种类大致分为结构化数据、半结构化数据、非结构化数据。

数据类型 区别
结构化数据 用二维数据库表来抽象表示。以数据库数据和文本数据为结构化数据。
半结构化数据 介于结构化和非结构化之间,主要指 XML、HTML、JSON 文档、Email 等等,也可称非结构化
非结构化数据 数据没有以一个预先定义的方式来组织,不可用二维表抽象,比如图片,图像,音频,视频等 。


数据采集,就是根据海量数据的种类不同,选择合适的采集工具,实施数据集成到大数据平台的过程。

一般而言,数据来源主要是两类。

1、各个业务系统的关系数据库,可以称之为业务的交互数据。主要是在业务交互过程中产生的数据。比如,你去大保健要用支付宝付费,淘宝剁手购物等这些过程产生的相关数据。一般存储在 DB 中,包括 Mysql,Oracle。

2、各种埋点日志,可以称之为埋点用户行为数据。主要是用户在使用产品过程中,与客户端进行交互过程产生的数据。比如,页面浏览、点击、停留、评论、点赞、收藏等。简而言之,夜深人静的时候,你躲在被子里,用快播神器看不知名的大片这些行为,都会产生数据被捕获。

其实,还有一种数据来源,就是爬虫爬取的数据。有很多外部数据,比如天气、IP 地址等数据,我们通常会爬取相应的网站数据存储。

总结:大数据采集的数据来自于日志、数据库、爬虫。

2.1 日志采集

2.1.1 浏览器页面日志

浏览器页面日志采集,主要分为两大类。

页面浏览(展现)日志采集: 页面浏览日志是指当
一个页面被浏览器加载呈现时采集的日志。此日志主要价值在于两大基本指标:页面浏览量(PV)和访客数(UV)的统计。

页面交互日志采集:也就是用户行为数据的采集,主要是用户在使用产品过程中,与客户端进行交互过程产生的数据。

2.1.2 无线客户端 App 日志采集

众所周知,日志来集多是为了进行后续的数据分析。

移动端的数据采集。

一是为了服务于开发者,协助开发者分析各类设备信息;

二是为了帮助各 APP 更好地了解自己的用户,了解用户在 APP 上的各类行为,帮助各应用不断进行优化,提升用户体验。

一般来说,App 日志采集采用采集 SDK 来完成。

但是,它的采集又与浏览器日志的采集方式有所不同,移动端的日志采集
根据不同的用户行为分成不同的事件,“事件”为无线客户端日志行为
的最小单位。

2.2 多源异构数据的采集

业务系统的数据类型多种多样,有来源于关系型数据库的结构化数据。

如 MySQL、Oracle、DB2, SQL Server 等:也有来源于非关系型
数据库的非结构化数据,如 HBase、 MongoDB 等,这类数据通常存储在数据库表中。

还有一类以文件的形式进行数据的存储,如:文件系统 FTP,阿里云对象存储等。

针对这些不同源的数据进行采集,利用采集工具将数据源的数据读取出来,转换为中间状态,并在目标数据系统中将中间状态的数据转换为对应的数据格式后写入。

推荐阅读