从零开始构建大数据平台:数据采集系列之二 - 数据来源与大数据采集
「从 0 到 1 搭建大数据平台之开篇」中,我们知道了大数据的特性。
海量的数据: 大而复杂的数据集。
复杂的数据:数据类型的多样性,包括文本,图片,视频,音频。
高速的数据:数据的产生呈指数式爆炸式增长,要求处理数据的速度越来越高。
数据种类大致分为结构化数据、半结构化数据、非结构化数据。
数据类型 | 区别 |
---|---|
结构化数据 | 用二维数据库表来抽象表示。以数据库数据和文本数据为结构化数据。 |
半结构化数据 | 介于结构化和非结构化之间,主要指 XML、HTML、JSON 文档、Email 等等,也可称非结构化 |
非结构化数据 | 数据没有以一个预先定义的方式来组织,不可用二维表抽象,比如图片,图像,音频,视频等 。 |
数据采集,就是根据海量数据的种类不同,选择合适的采集工具,实施数据集成到大数据平台的过程。
一般而言,数据来源主要是两类。
1、各个业务系统的关系数据库,可以称之为业务的交互数据。主要是在业务交互过程中产生的数据。比如,你去大保健要用支付宝付费,淘宝剁手购物等这些过程产生的相关数据。一般存储在 DB 中,包括 Mysql,Oracle。
2、各种埋点日志,可以称之为埋点用户行为数据。主要是用户在使用产品过程中,与客户端进行交互过程产生的数据。比如,页面浏览、点击、停留、评论、点赞、收藏等。简而言之,夜深人静的时候,你躲在被子里,用快播神器看不知名的大片这些行为,都会产生数据被捕获。
其实,还有一种数据来源,就是爬虫爬取的数据。有很多外部数据,比如天气、IP 地址等数据,我们通常会爬取相应的网站数据存储。
总结:大数据采集的数据来自于日志、数据库、爬虫。
2.1 日志采集
2.1.1 浏览器页面日志
浏览器页面日志采集,主要分为两大类。
页面浏览(展现)日志采集: 页面浏览日志是指当
一个页面被浏览器加载呈现时采集的日志。此日志主要价值在于两大基本指标:页面浏览量(PV)和访客数(UV)的统计。
页面交互日志采集:也就是用户行为数据的采集,主要是用户在使用产品过程中,与客户端进行交互过程产生的数据。
2.1.2 无线客户端 App 日志采集
众所周知,日志来集多是为了进行后续的数据分析。
移动端的数据采集。
一是为了服务于开发者,协助开发者分析各类设备信息;
二是为了帮助各 APP 更好地了解自己的用户,了解用户在 APP 上的各类行为,帮助各应用不断进行优化,提升用户体验。
一般来说,App 日志采集采用采集 SDK 来完成。
但是,它的采集又与浏览器日志的采集方式有所不同,移动端的日志采集
根据不同的用户行为分成不同的事件,“事件”为无线客户端日志行为
的最小单位。
2.2 多源异构数据的采集
业务系统的数据类型多种多样,有来源于关系型数据库的结构化数据。
如 MySQL、Oracle、DB2, SQL Server 等:也有来源于非关系型
数据库的非结构化数据,如 HBase、 MongoDB 等,这类数据通常存储在数据库表中。
还有一类以文件的形式进行数据的存储,如:文件系统 FTP,阿里云对象存储等。
针对这些不同源的数据进行采集,利用采集工具将数据源的数据读取出来,转换为中间状态,并在目标数据系统中将中间状态的数据转换为对应的数据格式后写入。
上一篇: Linux命令手册
推荐阅读
-
金融科技的高效省力秘籍:打造全面连接、全景覆盖、智能化的数字化运营体系" - 当下金融科技运营:挑战与机遇共存的时代解读 在快速发展的数字技术和企业数字化转型的大背景下,中国金融科技产业步入了提质增效的新阶段。面对市场的起伏变革与不确定性,金融机构需积极拥抱创新,灵活运用新技术,确保在竞争激烈的市场环境中稳固立足。 - 面临的双重考验: 1. 技术迭代压力:持续跟进行业内的科技革新,掌握新兴工具和平台,时刻应对瞬息万变的市场需求是金融科技运营的一大挑战。 2. 安全与隐私挑战:伴随着网络安全风险加剧和数据泄漏频发,如何强化信息安全体系、防范攻击、维护客户资金及隐私安全显得尤为重要。同时,伴随金融科技公司崛起,个人隐私权保障愈发关键。 - 喜人的发展空间: 1. 提升运营效益与降低成本:借助数字化技术,实现流程自动化、信息整合以及数据分析等,有效提升工作效能并缩减运营成本。 2. 扩大市场份额与增收途径:利用数字化手段拓宽销售渠道,优化用户体验,吸引更多用户并带动收入增长。 3. 加强客户联系与提升满意度:通过数字化科技运营,企业能更好地与客户互动沟通,增强客户信任感与忠诚度。 - 构建金融科技降本增效的核心驱动力:实施“全感知、全链接、全场景、智能”的科技运营体系升级路径
-
构建离线数据仓库系列之二:用户行为日志采集平台的搭建指南
-
Python京东商品数据采集与可视化分析大屏设计与实现(需求篇)
-
从零开始构建大数据平台:数据采集系列之二 - 数据来源与大数据采集